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本 书 从 数字 信和 号 处 理 技术 、 定 点 、 浮 点 的 运算 到 微 处 理 器 技术 、 
PRCA 技 术 的 演讲 过 程 出 发 ， 以 结构 原理 为 基础 讨论 了 各 种 典型 FPGA 
系列 的 特点 》 AREARE t. int, TUUM. | FPGA 的 DSP 快速 
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的 方法 、 
M 低 功 耗 技 术 及 可 重 配置 技术 。 全 面 展现 了 FPGA 的 特 


技术 。 

本 书 适合 有 一 定 电路 与 信息 处 理 基础 的 研究 生 或 工程 开发 人 员 使 用 。 
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译 者 È 


由 于 集成 电路 与 DSP 技术 的 迅猛 发 展 ， 可 编程 逻辑 电路 的 处 理 能 力 越 来 越 
强大 ， 不 仅 具 有 强大 的 逻辑 门 阵列 ， 而 且 炭 入 了 ARM 核 等 微 处 理 器 与 乘法 器 等 
协 处 理 器 ， 可 以 在 DSP、 控 制 等 相关 领域 广泛 应 用 。 国 内 外 对 可 编程 逻辑 设计 的 
专业 人 才 需 求 较 大 ， 尤 其 是 高 级 人 才 缺 口 较 大 。 目 前 大 部 分 可 编程 逻辑 电路 的 相 
关 教 材 着 重 讨论 应 用 实现 方法 ， 本 书 则 尝试 将 电路 内 部 实现 原理 与 方法 呈现 给 读 
者 ， 从 而 能 从 容 应 对 高 级 应 用 开发 。 本 书 将 DSP 与 FPGA 逻辑 电路 原理 与 实例 结 
合 起 来 讲解 ， 能 很 好 地 帮助 开发 者 深入 理解 FPGA 的 原理 并 快速 完成 开发 任务 。 

本 书 的 一 个 重要 特点 是 把 DSP 与 FPGA 结合 起 来 讲解 。 从 DSP 逐步 过 渡 到 
DSP 算法 的 逻辑 电路 实现 ， 使 得 采用 FPGA 电路 实现 DSP 算法 概念 清晰 化 。 

本 书 的 另 一 个 特点 是 详细 比较 了 Xilinx, Altera, Lattice 等 大 型 FPGA 生成 时 
的 电路 实现 架构 ， 并 指出 了 各 种 型 号 FPGA 的 特点 ， 为 开发 者 深入 理解 FPGA 的 
原理 、 合 理 进 行 FPCA 的 选 型 有 很 大 益处 。 

本 书 讲解 深入 浅 出 ,适合 有 一 定 电路 与 信息 处 理 基 础 的 研究 生 或 工程 开发 人 
员 使 用 。 本 书 可 以 帮助 他 们 切实 掌握 信号 处 理 的 FPGA 实现 原理 ， 并 快速 利用 
FPGA 实现 各 种 信号 处 理 算法 ; 还 可 以 帮助 他 们 深入 理解 FPGA 架构 ， 提 升 根据 
各 种 技术 指标 进行 FPGA 优化 的 基本 技能 。 

全 书 共 14 章 ， 由 北方 工业 大 学 白文 乐 副教授 、 李 争 平 副教授 、 黄 明 讲师 以 
及 北京 邮电 大 学 曾 勇 波 博士 进行 翻译 和 校对 。 其 中 ， 曾 勇 波 负责 第 1 ~4 章 、 第 
6 章 和 第 12 章 ; 李 争 平 负责 第 5 章 、 第 7 ~9 章 和 第 13 章 ; 黄 明 负责 第 10 章 、 
第 11 章 和 第 14 章 。 白 文 乐 副教授 对 全 书 进 行 了 统 稿 。 
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原 Ë A 


数字 信号 处 理 (DSP) 用 途 广 泛 ， 如 高 分 辨 电视 、 移 动 电话 、 数 字音 频 、 多 
媒体 、 数 字 相 机 、 声 纳 探测 器 、 生 物 图 像 、 全 球 定 位 、 数 字 无 线 电 、 语 音 识别 
等 。 在 需求 的 不 断 推动 下 ，DSP 技术 在 以 上 领域 的 应 用 直到 硅 芯片 技术 发 展 起 来 
才 成 为 可 能 。 为 以 上 应 用 开发 可 编程 DSP 芯片 和 专用 片上 系统 解决 方案 在 过 去 
30 多 年 来 一 直 是 研发 的 热点 。 实 际 上 ， 一 类 专用 微 处 理 器 已 经 向 DSP 演进 ， 即 
DSP 微 处 理 器 〈 或 DSPhs) 。 

硅 技术 成 本 和 逐渐 增加 ， 让 开发 专用 片上 系统 (SoC) 承受 了 相当 大 的 压力 ， 
并 且 意 味 着 这 一 技术 将 更 多 地 面向 高 容量 或 专业 化 的 市 场 。 另 一 策略 是 使 用 微 处 
理 器 类 解决 方案 ， 比 如 微 控 制 器 、 微 处 理 器 和 DSP 微 处 理 器 ， 但 是 有 时 候 这 些 
方法 不 能 很 好 地 满足 许多 DSP 应 用 对 速度 、 面 积 和 功 耗 的 要 求 。 最 近 ， 现 场 可 
编程 门 阵 列 (FPGA) 被 认为 是 一 种 DSP 硬件 实现 技术 ， 因 为 它 采 用 与 SoC 类 似 
的 方法 ， 可 以 根据 计算 、 存 储 和 功 耗 的 应 用 需求 开发 出 最 合适 的 电路 架构 。 这 一 
观点 消除 了 FPGA 只 是 “胶合 逻辑 ”平台 的 偏见 ， 且 揭示 了 FPGA 是 多 种 组 件 的 
有 机 统一 体 ， 可 以 用 来 开发 DSP 系统 。 由 DSP 系统 描述 到 实现 高 效 的 DSP 系统 
仍然 是 一 个 十 分 复杂 的 问题 ， 然 而 FPGA 预制 构件 技术 避免 了 开发 SoC 时 面临 的 
大 量 深层 次 细节 问题 。 

本 书 从 多 层次 对 FPGA 实现 流程 进行 讨论 ， 从 而 说 明 如 何 采 用 FPGA 技术 实 
现 DSP 系统 。 首 先 ， 本 书包 含 了 电路 级 优化 技术 ， 人 允许 底层 FPGA 结构 以 逻辑 资 
源 中 的 查找 表 (LUT) 与 触发 器 形式 被 智能 调用 。 对 具体 DSP 算法 运算 的 仔细 
研究 表明 ， 将 系统 需求 映射 为 面积 更 加 优化 且 更 快速 的 底层 硬件 实现 是 可 行 的 。 
这 表明 基于 LUT 的 高 效 FPGA 实现 可 以 展现 一 些 DSP 系统 的 本 质 特性 ， 如 DSP - 
变换 、 人 快速 傅 里 叶 变换 (FFT) 、 离 散 余弦 变换 (DCT) 和 固定 参数 滤波 器 。 

其 次 ， 考 虑 了 从 SFG 表示 创建 高 效 的 电路 架构 的 问题 。 很 明显 ， 有 效 使 用 
底层 资源 来 匹配 吞吐 量 的 电路 架构 是 成 本 最 低 的 解决 方案 。 这 要 求 开 发 者 挖掘 
DSP 系统 高 度 规律 的 、 高 度 计 算 的 、 数 据 独立 的 本 质 来 为 FPGA 实现 设计 高 度 并 
行 的 流水 线 电 路 架构 。 多 重 分 布 式 逻辑 资源 和 专用 的 寄存 器 使 得 这 种 方法 具有 高 
度 的 吸引 力 。 书 中 讲述 了 采用 必要 层次 的 并 行 与 流水 线 为 拟 建 设 的 系统 搭建 高 效 
电路 架构 的 技术 。 最 后 ， 随 着 技术 演变 ，FPGA 现 已 形成 了 一 个 包含 多 种 硬件 和 
软件 组 件 及 互 连 构造 的 异 构 平 台 。 很 明显 ， 人 们 对 真正 系统 级 设计 流程 的 渴望 需 
要 更 加 高 级 的 系统 建 模 语言 来 支撑 。 前 几 章 详 述 了 在 实现 硬件 功能 时 如 何 进行 系 
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列 优化 的 语言 与 方法 ， 同 时 讲述 了 诸如 互 连 与 存储 的 系统 级 考量 。 这 些 目前 仍然 
是 很 热门 的 研究 方向 。 

本 书 涵盖 了 FPGA 实现 的 这 三 个 领域 ， 并 聚焦 于 后 两 个 领域 ， 即 电路 架构 的 
创建 和 系统 级 建 模 ， 因 为 这 些 代 表 了 更 新 的 挑战 。 此 外 ， 电 路 级 优化 技术 也 在 其 
他 多 处 有 非常 详细 的 论述 。 这 体现 了 本 书 和 其 他 讲述 DSP 系统 FPGA 实现 文献 之 
间 的 一 个 主要 区 别 。 

总 之 ， 本 书 尽量 以 作者 搭建 DSP 系统 的 实际 经 验 来 支撑 论述 。 书 中 详细 列 
举 了 大 量 的 例子 ， 其 中 包括 在 自 适应 波束 形成 器 设计 举例 中 基于 QR 的 递归 最 小 
二 乘 (RLS) 滤波 器 的 实现 ， 也 包括 自 适应 差 值 脉冲 编码 调制 (ADPCM) 语音 
压缩 系统 的 设计 。 本 书 始终 使 用 有 限 冲 激 响 应 (FR) 及 无 限 冲 激 响 应 (IIR) 
滤波 器 来 讲述 映射 和 重 定时 。 采 用 了 一 个 基于 FFT 的 应 用 讲述 低 功率 优化 ， 采 
用 了 波形 数字 滤波 器 (WDF) 讲述 分 层 重 定时 开发 。 

除了 建 模 和 设计 方面 ， 本 书 也 关注 知识 产权 (IP) 核 的 发 展 ， 因 为 它 已 经 
成 为 DSP 系统 开发 中 一 个 关键 的 方面 。 当 缺少 相关 的 高 级 设计 工具 时 ， 设 计 者 
可 以 依靠 创造 可 重复 使 用 的 组 件 模块 来 缩小 设计 差距 ， 即 技术 和 设计 师 有 效 使 用 
该 技术 的 能 力 之 间 的 差距 。 有 一 章 重点 描述 了 这 种 IP 核 的 创建 ， 另 一 章 专门 讲 
述 了 一 个 重要 的 自 适应 滤波 器 架构 的 核 的 创建 ， 即 RLS 滤波 器 。 

读者 

本 书 针对 致力 于 使 用 FPGA 技术 实现 信号 处 理应 用 的 工程 师 们 。 前 面 的 章节 
力求 帮助 大 学 生 和 毕业 生 完 成 他 们 的 学 业 ， 带 领 大 家 浏览 DPS 系统 映射 到 FPCA 
硬件 时 所 做 的 各 种 权衡 的 简单 例子 。 本 书 的 中 间 部 分 包含 了 大 量 复杂 的 使 用 
FPGA 实 现 DSP 系统 的 实例 ， 清 楚 展 现 了 使 用 FPGA 的 好 处 。 这 些 例子 包括 : 4B 
阵 乘法 、 自 适应 滤波 系统 、 波 形 数字 滤波 器 和 基于 RLS 滤波 器 的 自 适应 波束 形 
成 系统 。 从 算法 复杂 度 到 FPGA 硬件 映射 的 清晰 论述 将 为 各 类 读者 呈现 利用 FP- 
GA 硬件 实现 这 些 解决 方案 的 专业 知识 ， 这 在 现 有 的 文献 中 是 无 法 找到 的 。 值 得 
一 提 的 是 ， 本 书 是 作者 30 多 年 实践 经 验 的 完美 归纳 。 

本 书 聚 焦 于 可 以 构建 复杂 DSP 系统 的 FPGA 异 构 平 台 。 需 要 特别 说 明 的 是 ， 
我 们 采用 系统 级 的 方法 来 解决 问题 ， 比 如 系统 级 优化 、IP 核 集 成 与 实现 、 系 统 
通信 架构 与 低 功 耗 实现 等 。 目 的 是 让 设计 者 能 够 利用 书 中 讲述 的 技术 与 实例 ， 结 
合 现 有 的 基于 C 语言 或 HDL 语言 的 开发 方案 实现 他 们 自己 的 想法 。 

组 织 方式 

本 书 的 目的 是 通过 FPGA 技术 实现 DSP 中 具有 挑战 性 的 实例 来 启发 人 们 ; 为 
了 这 一 目的 ， 它 主要 讲述 把 DP 算法 转换 为 合适 电路 结构 的 高 层 映射 ， 而 不 是 
BGR FPGA 的 具体 优化 。 其 他 文献 更 多 侧重 于 结合 基于 HDL 的 设计 工具 来 讲述 ， 
而 本 书 把 FPGA 当成 可 以 开发 复杂 DSP 系统 的 硬件 来 讲述 。 这 样 ，FPGA 就 成 为 
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一 个 包含 复杂 资源 的 异 构 平 台 ， 把 软 、 硬 件 处 理 器 ， 专 用 DSP 模块 ， 处 理 单元 
通过 可 编程 快速 专用 连接 互联 。 本 书 由 4 个 主要 部 分 组 成 。 

第 一 部 分 , 即 第 2 ~5 章 讲述 了 DSP 系统 和 实现 的 基础 知识 ， 帮 助 进 入 这 些 
领域 做 人 门 引 导 。 第 2 章 从 对 DSP 简单 论述 开始 ， 涵 盖 了 数字 滤波 和 变换 。 详 
述 了 基本 的 滤波 器 结构 ， 自 适应 滤波 器 算法 。 至 于 变换 方面 ， 本 章 简单 讲述 了 
FFT, DCT 和 离散 小 波 变换 (DWT)。 同 时 ,讲述 了 一 些 在 心电图 (ECG) 的 应 
用 实例 来 说 明 一 些 关 键 知 识 点 ， 为 本 书后 续 的 例子 做 背景 铺垫 。 

第 3 章 重 点 讲述 计算 机 运算 ， 它 在 DSP 系统 实现 中 很 重要 。 本 章 从 对 数字 
系统 的 思考 与 基本 运算 开始 ， 引 出 了 加 法 器 和 乘法 器 。 这 些 是 FPGA 核心 模块 的 
代表 , 但 主要 思考 的 是 二 次 方 根 和 除法 执行 电路 ， 因 为 一 些 DSP 应 用 中 需要 这 
些 知 识 。 对 其 他 数 的 表示 也 做 了 简单 介绍 ， 即 有 符号 数 的 表示 (SDNR)、 对 数 
系统 (LNS), RARA (RNS) 和 坐标 旋转 数字 计算 机 (CORDIC ) 。 但 是 ， 因 
为 没有 例子 使 用 这 些 数值 系统 ， 所 以 没有 详细 讲述 。 

第 4 章 涵盖 了 各 种 实现 DSP 算法 的 现 有 技术 。 理 解 其 他 技术 的 特点 很 重要 ， 
有 助 于 用 户 选 择 最 合适 的 技术 。 在 FPGA 技术 与 其 他 技术 比较 中 发 现 区 别 显 著 。 
这 些 技术 包括 以 ARM 处 理 器 与 DSP 为 代表 的 微 处 理 器 技术 ， 主 要 详细 讲述 了 德 
州 电 气 TMS320C64 系列 。 之 后 介绍 了 并 行 机 制 ， 包 括 脉动 阵列 、 单 指令 多 数据 
(SIMD) 及 多 指令 多 数据 (MIMD ) 。 紧 接着 讲述 了 SIMD 机 制 的 两 个 例子 ， 即 
Imagine 处 理 器 和 Clearspeed 处 理 器 。 

在 这 部 分 的 最 后 ， 也 就 是 第 5 章 ， 详 细 讲 述 了 商用 FPCA ， 主 要 集中 于 两 大 
供应 商 Xilinx 和 Altera 的 Virtex 和 Srratix 系列 FPGA， 也 讲述 了 一 些 Lattice, At- 
mel 和 Actel 的 技术 。 这 一 章 给 出 了 它们 的 架构 细节 、DSP 的 具体 处 理 能 力 、 存 
储 器 结构 、 时 钟 网 络 、 互 连 框架 和 1O 及 外 部 存储 接口 。 

本 书 第 二 部 分 讲述 了 三 个 主要 阶段 的 系统 级 实现 ， 即 从 电路 架构 到 具体 FP- 
GA 系列 上 的 有 效 实 现 、 从 信号 流 图 (SFG) 表示 创建 电路 架构 ， 以 及 来 自 一 个 
计算 表示 高 级 模型 的 系统 级 规范 和 实现 方法 。 在 这 部 分 的 起 始 部 分 ， 即 第 6 章 ， 
从 电路 架构 描述 角度 讲述 了 FPGA 设计 的 有 效 实现 。 因 为 这 部 分 内 容 已 有 大 量 文 
献 出 版 ， 所 以 这 一 章 只 是 综述 了 现 有 的 有 效 DSP 实现 技术 ， 重 点 讲 了 分 布 式 算 
ik (DA), ， 同 时 详细 讲述 了 别处 未 讲 到 的 的 折 减 系数 乘法 器 (RCM)。 后 边 讲 到 
的 技术 对 固定 参数 函数 很 有 用 ， 如 固定 系数 滤波 器 、DCT 等 变换 。 这 一 章 也 简 
要 探讨 了 如 存储 器 实现 和 延 时 实现 的 细节 设计 问题 。 

第 7 章 概述 了 实现 快速 设计 的 工具 ， 并 用 Petri 网 络 和 其 他 计算 模型 (MoC) 
的 形式 讲述 了 高 级 散人 式 系 统 的 系统 规范 。 涉 及 的 工具 有 Gedae, Compaan, ES- 
PAM, Daedalus 和 Koski。 这 一 章 也 讲 到 了 FPGA 的 全 核 生成 工具 ， 包括 Labview 
FPGA, Synplify DSP、 基 于 C 的 快速 也 核 设计 工具 及 MATLAB, 


原 书 È Vil 





第 8 章 讲述 了 下 一 个 阶段 工作 ， 即 DSP 算法 如 何以 信号 流 图 (SFC) 或 者 数 
据 流 图 (DFC) 的 形式 被 映射 到 第 6 章 开 头 讲述 的 电路 架构 中 去 。 这 个 工作 基于 由 
K -K -Parhi 撰写 的 一 本 优秀 教材 (《VLSI 数字 信号 处 理 系统 : 设计 和 实现 》，Wi- 
ley, 1999) ， 它 讲述 了 大 量 技术 如 何 被 应 用 到 基于 VLSI 的 信号 处 理 系 统 中 。 这 一 
章 讲述 了 DFG 描述 怎么 被 转换 成 不 同 级 别 的 并 行 和 流水 线 结构 ， 形 成 最 符合 应 用 
需求 的 电路 架构 。 这 部 分 技术 以 简单 的 FIR 和 IIR 滤波 器 为 例 进行 了 讲解 。 

第 9 章 介绍 了 IRIS 工具 ， 开 发 这 一 工具 主要 为 了 从 DSP 系统 SFG 描述 和 算 
法 及 第 8 章 所 述 的 大 量 特征 中 提取 创建 电路 架构 的 过 程 产物 。 它 用 WDF 例子 进 
行 说 明 ， 并 展示 了 系统 级 设计 中 分 层 这 个 主要 问题 ， 提 出 白 盒 方法 是 一 个 可 行 的 
解决 途径 。 这 些 章节 为 书 中 后 续 章 节 系 统 级 问题 的 讲解 做 了 准备 。 

本 书 的 最 后 部 分 ， 第 10 章 和 第 12 章 讲 述 了 设计 挑战 的 第 三 方面 ， 突 出 讲述 
了 高 级 设计 。 第 8 章 和 第 9 章 已 经 讲述 了 如 何 提取 DSP 功能 层 来 生成 FPGA 实 
现 ， 通 常 被 认为 是 生成 DSP IP 核 的 有 效 方法 ， 是 系统 部 分 性 能 的 标志 。 第 10 章 
详细 讲述 了 创建 硅 了 P 核 的 原理 ， 突 出 了 不 同 的 风格 ， 即 硬 、 软 和 固件 风格 ， 阐 
述 了 复 用 设计 核心 理念 ， 这 被 认为 是 缩小 设计 效率 差距 的 关键 方法 。IP 核 的 产 
生 已 经 成 为 长 期 与 FPGA 关联 的 增长 型 行业 ; 实际 上 ， 以 最 短 的 设计 时 间 获 得 高 
度 有 效 的 FPGA 解决 方案 在 使 用 FPGA 实现 DSP 过 程 中 变 得 至 关 重 要 。 第 10 章 
讲述 了 以 公司 的 实践 经 验 为 基础 的 核 的 产生 细节 ， 以 及 与 之 伴随 的 IP 核 演 进 历 
史 ， 并 回顾 了 如 何 创建 可 参数 化 IP 核 的 整个 过 程 ， 顺 便 简 述 了 来 自 Xilinx 和 Al- 
tera 的 现 有 FPCA IP 核 。 

沿 着 高 级 设计 这 条 主线 ， 第 11 章 讲述 了 异 构 FPGA 的 模块 化 设计 。 这 一 章 
集中 讲述 数据 流 建 模 这 一 适合 开发 DSP 系统 的 平台 ,介绍 了 多 种 风格 的 数据 流 ， 
包括 了 同步 数据 流 、 环 形 的 静态 数据 流 、 多 维 的 同步 数据 流 。 快 速 综 合 和 优化 技 
术 用 以 由 DFG 创建 有 效 的 组 入 式 软 件 方 案 , 涵盖 了 多 个 主题 ， 如 图 表 平 衡 、 群 
集 、 代 码 生 成 和 DFG 作用 物 的 可 配置 性 。 然 后 ， 这 章 描绘 了 如 何 经 由 白 盒 概念 
把 流水 线 IP 核 包 含 进来 ， 这 里 用 了 两 个 例子 进行 说 明 ， 即 一 个 标准 化 的 桥 形 网 
格 滤 波 器 (NLF) 例子 和 一 个 固定 的 波束 形成 器 例子 。 

第 12 章 剖 析 了 创建 软 的 、 高 度 可 参数 化 的 RLS 滤波 器 核 。 这 一 章 开始 介绍 
了 自 适 应 波束 形成 和 基于 QR 识别 算法 进行 波束 形成 的 有 效 方法 。 然 后 ， 从 算法 
讲述 开始 ， 清 楚 讲述 了 如 何 由 一 系列 架构 形成 单一 通用 架构 。 同 时 ， 考 虑 了 定点 
和 浮 点 算法 的 选择 及 控制 开销 等 问题 。 第 13 章 讲 述 了 FPGA 实现 的 关键 部 分 ， 
也 是 硬件 设计 的 另 一 关键 部 分 ， 即 低 功 耗 设 计 。 只 有 在 与 微 处 理 器 比较 时 ， 
FPCA 才 是 所 谓 的 低 功率 解决 方案 ， 在 与 相应 的 ASIC 比较 时 ，FPGA 实现 还 存在 
很 大 差距 。 本 章 开 始 主要 讲述 了 各 种 静态 和 动态 功 耗 源 ， 之 后 提出 了 大 量 的 解决 
方案 ， 首 先 来 减少 静态 功 耗 ， 受 限于 FPCA 的 固有 属性 而 减少 有 限 ， 然 后 来 减少 
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动态 功 耗 ， 主 要 通过 减少 FPCA 实现 中 的 开关 电容 达到 目的 。 本 书 使 用 了 一 个 基 
于 FFT 的 实现 来 说 明 在 减 小 功 耗 中 取得 的 一 些 收获 。 

最 后 ,第 14 章 归 纳 了 本 书 中 的 主要 方法 ， 并 考虑 了 将 来 可 能 被 采用 的 FPCA 
架构 。 此 外 ， 它 简 述 了 一 些 在 书 中 未 包括 的 主题 ， 特 别 是 可 重 配 置 系统 。 通 常 认 
为 FPGA 的 一 个 优势 是 在 启动 时 可 编程 ， 在 运行 周期 期 间 允 许 修改 。 但 是 值得 关 
注 的 想法 是 ， 动 态 重 配置 FPGA， 人 允许 在 运行 期 间 进行 修改 ， 即 动态 重 配置 (前 
边 的 模式 可 视 为 静态 重 配置 )。 其 优势 在 于 FPGA 可 以 被 当成 虚拟 硬件 ， 利 用 可 
用 硬件 实现 远 超 现 有 FPGA 设备 可 用 容量 能 够 实现 的 功能 。 这 是 一 个 极 具 诱惑 力 
的 想法 ,但 实际 情况 限制 了 其 可 行 性 。 
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第 1 章 FPGA 概述 


1.1 引言 


电子 技术 的 发 展 为 20 世纪 带 来 了 革命 性 的 剧变 ， 并 且 其 产生 的 影响 持续 至 
21 世纪 。 计 算 机 工业 的 诞生 和 随后 的 发 展 、 移 动 电话 的 发 明 、 数 字 电视 和 无 线 
业务 的 普及 等 都 是 电子 技术 发 展 的 典型 代表 。20 世纪 70 ~ 80 年 代 ， 电 子 系统 开 
始 集成 到 微 处 理 器 和 带 有 数字 逻辑 器 件 的 存储 芯片 等 标准 部 件 上 ， 比 如 专用 集成 
电路 和 具有 专用 输入 /输出 (0) 器 件 的 印 制 电路 板 〈Printed Circuit Board, 
PCB) 等 。 随 着 集成 度 的 增加 ， 制 造 PCB 变 得 越 来 越 复杂 ， 很 大 程度 上 是 由 于 
晶体 管 和 LAO 引 脚 数量 增加 从 而 导致 器 件 复 杂 度 增加 ， 同 时 ， 多 层 板 发 展 到 多 达 
20 个 独立 层 。 然 而 ， 器 件 连接 的 错误 概率 也 同时 增加 ， 尤 其 是 在 产品 发 布 前 成 
功 的 设计 和 测试 工作 系统 所 允许 的 时 间 越 来 越 短 。 

随 着 电路 板 技术 的 发 展 ， 系 统 描述 难度 增加 ， 上 面 的 问题 变 得 更 加 严峻 。 开 
发 新 系统 以 满足 演进 标准 的 压力 ， 或 者 由 于 系统 变化 、 设 计 规范 的 变化 导致 电路 
板 构建 之 后 可 能 的 改动 等 ， 都 意味 着 物理 系统 构建 和 处 理 器 软件 代码 开发 方面 的 
“完全 定制 ”思想 已 经 越 来 越 不 现实 。 微 控制 器 和 微 处 理 器 等 可 编程 处 理 器 的 应 
用 虽然 能 够 让 设计 者 在 一 定 程度 上 对 产品 的 系统 进行 校正 或 修改 ， 但 可 做 的 改动 
有 限 ， 因 为 对 PCB 上 器 件 的 连接 改动 仅 限于 处 理 器 L/O 口 的 连接 。 因 此 ， 采 用 
可 编程 连接 或 者 “胶合 逻辑 ”具有 非常 大 的 吸引 力 ， 现 场 可 编程 逻辑 尤其 是 现 
场 可 编程 门 阵列 (FPGA) 技术 由 此 诞生 。 


1.1.1 FPGA 


现场 可 编程 门 阵 列 (Field Programmable Gate Arrays, FPGA) 刚 开 始 只 是 一 
种 简单 的 “胶合 逻辑 ”技术 ， 为 主要 器 件 提 供 可 编程 连接 ， 这 种 可 编程 性 基于 
反 熔 丝 技术 、 可 控 除 可 编程 只 读 存储 器 (Erasable Programmable Read Only Memory, 
EPROM) 技术 或 静态 随机 存 取 存 储 器 (Static Random Access Memory, SRAM) 
技术 (Maxfield 2004) 。 此 方法 可 以 纠正 那些 在 开发 末期 才 发 现 的 设计 错误 ， 大 
多 是 对 FPCA 重新 编程 ， 从 而 可 以 按照 需求 来 改变 器 件 之 间 的 连接 。 虽 然 连 接 重 
新 编程 会 增加 项 目 开发 时 间 ， 但 它 避 免 了 成 本 高 且 耗 时 长 的 电路 板 重新 设计 ， 并 
且 可 显著 降低 设计 风险 。 


2 信号 处 理 系统 的 FPCGA 实现 








与 很 多 其 他 电子 行业 一 样 ，FPGA 市 场 的 形成 和 发 展 也 受 摩尔 定律 (Moore 
1965) 驱动 ， 如 图 1-1 所 示 。 摩 尔 定律 认为 晶体 管 的 数量 每 隔 18 个 月 翻 一 倍 。 
这 种 难以 想象 的 增长 速度 开辟 了 一 片 新 兴 市 场 ， 并 且 成 为 很 多 电子 产品 市 场 的 强 
大 驱动 力 ， 比 如 移动 电话 、 数 字音 频 设备 、 数 字 电 视 等 。 这 是 因为 晶体 管 的 数量 
不 断 翻 倍 的 同时 成 本 并 没有 增加 ， 从 而 在 每 次 技术 革新 时 降低 了 单个 晶体 管 的 成 
本 。 技 术 的 发 展 使 得 FPGA 市 场 在 20 年 间 从 零 发 展 成 集成 电路 产业 的 重要 角色 ， 
目前 的 市 场 规模 预计 约 40 亿美 元 。 







晶体 管 /芯片 


基于 65nm 制 造 工艺 、 集 成 
20 亿 个 晶体 管 的 4 核 安 腾 处 理 
器 ， 见 ISSC2008 


1950 1960 1970 1980 1990 2000 2010 
图 1-1 摩尔 定律 

很 多 时 候 ， 一 些 人 根据 摩尔 定律 提出 的 增长 速度 认为 晶体 管 已 经 接近 零 成 
本 ， 因 此 可 以 进一步 将 晶体 管用 在 可 编程 硬件 上 ， 以 便 提供 更 多 的 灵活 性 。 这 一 
观点 看 似 可 以 从 成 本 变化 的 角度 来 实现 : 晶体 管 成 本 从 1980 年 前 后 大 约 0. 1 美 
分 降 到 2000 年 前 后 大 约 0. 001 美 分 。 这 些 人 认为 这 个 观点 也 已 经 被 实现 ， 以 
FPCA 的 形式 将 硬件 可 编程 性 引入 电子 产业 就 是 证 明 。 为 了 在 SRAM 技术 中 实现 
单个 晶体 管 的 可 编程 性 ， 需 要 在 晶体 管 的 基 极 存储 “1” 或 “0” 来 控制 可 编程 
能 力 ， 使 其 能 够 导 通 或 者 截止 ; 然后 将 这 个 值 存储 在 一 个 由 6 个 晶体 管 组 成 的 
SRAM 单元 中 ， 显 然 ， 引 入 可 编程 能 力 会 导致 晶体 管 数量 增加 600% 。 虽 然 从 完 
整 的 FPGA 实现 来 看 并 没有 什么 影响 ， 但 设计 中 必须 要 考虑 最 终 的 系统 成 本 。 

FPGA 技术 最 大 的 吸引 力 在 于 FPGA 硬件 在 加 工 后 仍然 可 以 进行 编程 修改 的 
能 力 ， 在 竞争 日 益 激 烈 的 市 场 中 , “一 次 成 功 ”的 系统 构建 越 来 越 难 实现 ， 但 它 
提供 了 一 种 新 的 保障 。20 世纪 90 ERRE 21 世纪 初 ， 市 场 处 于 低迷 状态 ， 当 
其 他 微 电 子 技术 都 受 影响 的 时 候 ，FPGA 市 场 仍然 保持 稳定 ,证实 了 人 们 对 FP- 
GA 市 场 发 展 的 预 判 。 这 种 情况 可 能 会 再 次 出 现 。 当 然 ， 可 编程 能 力 的 重要 性 早 
已 经 在 微 处 理 器 中 显现 ， 但 FPGA 可 编程 能 力 代 表 了 一 种 新 的 能 力 。 
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1.1.2 可 编程 能 力 和 DSP 


上 一 节 介 绍 了 FPGA 技术 在 可 编程 能 力 方面 的 优势 ， 即 可 以 降低 制作 PCB 时 存 
在 错误 的 风险 或 者 是 对 已 生产 的 产品 进行 后 期 更 改 。 虽 然 在 FPGA 技术 发 展 初期 ， 这 
个 优势 很 突出 ， 但 半导体 硅 技术 的 发 展 ， 促 使 FPGA 从 可 编程 互 连 技术 变 成 一 个 系统 
部 件 。 如 果 微 处 理 器 或 者 微 控 制 器 被 视 作 可 编程 系统 部 件 ， 那 么 目前 的 FPCA 器 件 也 
必须 受到 同等 对 待 ， 让 我 们 从 不 同 的 视角 来 审视 系统 的 可 编程 能 力 。 

在 电子 系统 设计 中 ， 微 处 理 器 / 微 控制 器 主要 的 吸引 力 在 于 其 通过 降低 设计 
复杂 度 显 著 地 降低 了 系统 开发 过 程 中 的 风险 。 由 于 硬件 是 固定 的 ， 因 此 所 有 设计 
工作 都 可 以 集中 在 开发 代码 上 一 一 这 些 代 码 保 证 硬件 能 够 按照 系统 规范 工作 。 高 
效 软件 编译 器 的 发 展 已 经 实现 了 这 种 推断 ， 编 译 器 大 量 地 减少 了 设计 人 员 编 写 汇 
编 语 言 的 需求 。 它 还 在 一 定 程度 上 将 设计 人 员 从 微 处 理 器 架构 的 细节 中 解脱 出 来 
(尽管 很 多 实践 者 认为 掌握 微 处 理 器 的 架构 知识 对 写 出 好 代码 非常 重要 )。 这 种 
设计 思想 越 来 越 受 欢迎 ， 因 此 髋 入 式微 处 理 器 课程 已 经 成 为 电子 电气 或 计算 机 工 
程 相关 专业 的 必修 课程 。 

很 多 处 理 流 程 已 经 归结 到 软件 开发 人 员 利 用 基础 的 处 理 器 架构 的 能 力 ， 即 
18 + 庄 依 曼 架 构 。 然 而 这 种 优势 同样 也 成 为 其 应 用 到 本 书 所 讲 的 数字 信号 处 理 
(Digit Signal Process, DSP) 的 限制 因素 。 在 冯 “ 诺 依 曼 架 构 中 ， 运 算 按 照 时 间 
顺序 处 理 ， 因 此 能 够 相对 直接 地 从 编程 角度 来 解释 硬件 ; 然而 ， 这 种 处 理 方式 严 
重 限制 了 DSP 的 性 能 ， 因 为 DSP 的 应 用 具有 非常 显著 的 并 行 化 特征 ， 并 且 其 中 
大 量 运 算 与 数据 相对 独立 ， 从 而 具有 优化 的 空间 。DSP 应 用 需要 并 行 实现 ， 虽然 
DSP 微 处 理 器 (也 称 为 DSP ps) 在 一 定 程 度 上 通过 同时 采用 并 行 硬 件 和 软件 
“流水 线 技 术 ” 解 决 了 这 个 问题 ， 但 仍然 采用 “一 种 架构 来 适 配 所 有 DSP 问题 ” 
的 思想 。 

FPGA 突破 了 这 种 限制 ， 它 将 那些 需要 考虑 的 因素 作为 一 种 可 编程 能 力 ， 即 
对 基础 的 处 理 器 结构 进行 编程 的 能 力 。 通 过 搭建 能 够 尽量 满足 算法 需求 的 架构 来 
获得 面积 、 速 度 和 功 耗 等 方面 的 最 佳 性 能 ， 这 并 不 是 一 种 新 思想 ， 设 计 一 种 满足 
算法 需求 的 系统 架构 是 专用 集成 电路 (Application Specific Integrated Circuit, 
ASIC) 的 基础 。 大 量 的 ASIC 实现 都 是 成 本 效益 最 高 、 最 快 和 功 耗 最 低 的 解决 方 
案 ， 但 是 它 会 增加 掩 模 成 本 并 且 对 系统 实现 “一 次 成 功 ” 率 有 影响 ， 由 此 催生 
了 更 具 吸 引力 的 FPGA。 可 以 说 ，FPGA 既 能 达到 ASIC 实现 的 性 能 ， 同 时 又 具有 
可 编程 处 理 器 的 可 编程 性 优势 。FPCA 从 诞生 到 现在 已 经 能 在 单个 FPGA 片上 针 
对 一 些 DSP 应 用 实现 每 秒 数 千 亿 次 的 运算 ， 其 性 能 远 远 超过 微 处 理 器 的 性 能 。 

1.2 节 将 结合 芯片 的 发 展 过 程 来 回顾 硅 半 导体 技术 的 演进 ， 并 且 简 要 地 介绍 
可 编程 能 力 的 关键 要 素 ，1. 3 节 将 详细 讨论 这 些 方面 ; 1.4 节 将 介绍 在 利用 FP- 
GA 技术 的 优点 时 所 面临 的 挑战 。 
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1.2 芯片 发 展 简介 


可 能 很 多 人 认为 18 世纪 末 到 19 世纪 初 的 工业 革命 对 我 们 的 生活 和 出 行 方式 
有 重要 的 影响 ， 也 有 一 种 观点 认为 半导体 的 发 明 对 我 们 的 生活 具有 同样 的 影响 。 
半导体 技术 改变 了 我 们 与 世界 及 相互 之 间 的 沟通 方式 ， 比 如 移动 电话 、 电 子 邮 
件 、 视 频 会 议 等 ; 我 们 可 以 通过 电视 、 广 播 、 数 字 录 像 参与 娱乐 活动 ; 可 以 通过 
计算 机 和 电子 书 开展 教育 ; 同样 ， 还 可 以 通过 无 线 通 信和 及 计算 机 技术 远程 办 公 。 

上 面 提 到 的 这 些 技术 都 是 在 发 明 晶 体 管 之 后 出 现 的 ， 由 贝尔 实验 室 William 
Shockley 的 助手 John Bardeen 和 Walter Brattain 所 发 明 。 他 们 当时 在 研究 半导体 
材料 硅 的 特性 ， 后 来 发 现 通过 控制 基 极 电压 可 以 控制 发 射 极 和 集 电极 之 间 的 电子 
流 。 这 一 发 现 对 电子 技术 具有 重大 影响 ， 使 得 人 们 可 以 用 更 可 靠 的 晶体 管 来 蔡 代 
真空 管 ， 并 迅速 推广 应 用 在 各 种 产品 上 。 

另 一 个 主要 的 演进 发 生 在 研制 第 一 块 硅 芯 片 时 ， 由 Jack Kilby 及 Robert 
Noyce 各 自 独 立 研制 ， 验 证 了 可 以 将 器 件 集成 在 一 块 半导体 材料 上 ， 即 集成 电路 
(Integrated Circuit, IC) 。 此 外 ，Noyce 的 方案 解决 了 一 些 实际 问题 ， 使 得 集成 电 
路 的 批量 生产 更 简单 。 从 设计 和 制造 的 角度 来 看 ， 将 晶体 管 和 其 他 器 件 集成 到 一 
块 芯 片上 具有 很 多 优势 。 比 如 ， 不 再 需要 通过 人 工 布 线 的 方式 连接 独立 器 件 ; 电 
路 可 以 做 得 更 小 并 且 可 以 采用 自动 化 的 制造 过 程 。 芯 片 技术 的 演进 推动 了 由 德州 
仪器 (Texas Instrument, TI) 公司 开发 的 标准 TTL 7400 系列 器 件 的 发 展 ， 也 推 
动 了 很 多 基础 电子 配件 构建 单元 的 发 展 。 那 个 时 候 ， 人 们 还 未 意识 到 这 些 芯 片 将 
自 成 一 个 标准 。 

1968 ^E, Bob Noyce 和 Gordon Moore 研制 了 第 一 个 微 处 理 器 Intel 4004, ix 
是 一 个 重要 的 创新 。 虽 然 现 在 64 位 微 处 理 器 集成 了 550 万 个 晶体 管 且 每 秒 能 执 
行 数 亿 次 运算 ， 而 当时 在 12mm? 的 面积 上 只 集成 了 2300 个 晶体 管 ， 但 这 仍然 是 
重大 的 进步 。 其 重要 的 特征 是 通过 改变 微 处 理 器 中 寄存 器 的 代码 来 调整 功能 ， 并 
不 需要 重新 做 一 套 硬件 平台 。 这 对 工程 师 非 常 重要 ， 他 们 可 以 从 部 件 的 构建 设计 
中 解脱 出 来 ， 如 果 这 些 部 件 不 能 轻易 改动 ， 那 么 就 无 法 采用 可 以 通过 改变 代码 来 
增 减 功能 的 可 编程 平台 。1965 年 底 的 时 候 ，Gordon Moore 在 一 篇 文章 中 提出 一 
个 著名 的 预测 ， 即 摩尔 定律 (Moore's law) 。 最 初 的 论述 是 说 最 小 部 件 成 本 下 的 
复杂 度 大 致 每 年 翻 一 倍 ， 后 来 修改 为 每 18 个 月 翻 一 倍 。 最 具有 代表 性 的 是 硅 芯 
片 技 术 的 发 展 ， 使 人 们 应 用 晶体 管 时 不 仅 可 以 提供 处 理 数据 的 能 力 而 且 可 以 通过 
简单 地 增加 开销 来 提供 可 编程 能 力 。 虽 然 这 意味 着 我 们 可 以 以 极 低 的 成 本 使 用 唱 
体 管 并 且 微 处 理 器 将 成 为 主导 ， 但 问题 是 我 们 没有 有 效 地 利用 这 些 晶体 管 。 付 出 
的 代价 是 功 耗 增加 了 总 体 价 格 ， 进 而 影响 系统 的 综合 性 能 。 在 微 处 理 器 系统 中 ， 


$13 FPGA 概述 和 





仅 有 一 小 部 分 晶体 管 在 运算 中 发 挥 作用 。 

在 这 个 阶段 ， 设 计 过 程 中 的 一 个 重要 变化 是 芯片 设计 向 广泛 的 爱好 者 打开 了 
大 门 ， 包括 大 学 生 (本 书 的 主要 作者 就 是 在 当时 开始 接触 芯片 设计 的 ) Mead 
和 Conway (1979) 写 了 一 篇 经 典 的 文章 ， 显 著 地 简化 了 芯片 设计 规范 ， 使 得 小 
型 芯片 的 实现 甚至 可 以 不 需要 检查 设计 规范 。 通 过 假设 一 些 最 坏 情 况 ， 可 以 在 给 
定 芯片 尺寸 的 情况 下 自动 创建 很 小 的 设计 规范 集 。 芯 片 设 计 过 程 从 此 不 再 显得 那 
么 神秘 ， 随 着 软件 工具 的 发 展 ， 各 个 公司 能 够 为 自己 的 产品 开发 专用 集成 电路 。 
美国 的 MOSIS 程序 (Pina 2001) 结合 上 面 的 设计 方法 ， 提 供 了 一 套 机 制 ， 为 在 
校 大 学 生 和 研究 生 提 供 IC 设计 教学 和 实践 的 机 会 。 后 来 欧洲 芯片 〈Eurochip Bf 
现在 的 Europractice ，Europractice 2006) 开发 了 相同 的 套件 ， 全 欧洲 的 大 学 都 可 以 借 
此 批量 设计 和 生产 芯片 。 然 而 由 于 人 们 越 来 越 在 平 “ 一 次 成 功 ”的 设计 ， 导 致 固定 
成 本 (Nonrecurent Engineering, NRE) 
上 升 ， 从 而 压制 了 ASIC 的 思想 。 
NRE 主要 体现 在 制造 工艺 中 掩 模 的 
生产 成 本 上 ; 成 本 上 升 是 由 于 缩减 

蕊 片 尺寸 所 需要 的 更 精细 几何 形 
状 的 掩 模 越 来 越 贵 (并 且 难 度 越 来 
越 大 ) Zuchowski 等 人 在 2002 年 首 250 180 130 90 65 
次 解释 了 这 个 问题 ( Zuchowski 等 Argos 
2002), 图 1-2 所 示 为 生产 ASIC Ht 图 1-2 不 同 技术 阶段 下 的 
模 所 需 成 本 (NRE 成 本 的 一 部 分 ) 掩 模 成 本 (Zuchowski 等 2002) 
的 上 升 趋势 。 

1985 Æ, Xilinx 开发 的 XC2064 FPGA 系列 首次 采用 了 FPGA 的 思想 。 与 此 
同时 ，Altera 公司 也 开发 了 一 款 可 编程 器 件 ， 后 来 被 命名 为 EP 1200， 它 是 第 一 
款 高 密度 可 编程 逻辑 器 件 (Programmable Logic Device, PLD), Altera 公司 的 
PLD 器 件 是 采用 3pm 的 CMOS EPROM 技术 制造 ,需要 紫外 线 来 擦 除 程 序 ; 
Xilinx 的 技术 基于 传统 的 静态 RAM 技术 ,需要 一 块 EPROM 来 存储 程序 。Xilinx 
的 联合 创始 人 Ross Freeman 认为 ， 随 着 硅 芯 片 技术 的 持续 发 展 ， 唱 体 管 将 越 来 
越 便宜 ， 从 而 可 以 用 来 提供 可 编程 性 能 。 这 便 是 FPGA 市 场 的 开端 ， 随 后 迅速 在 各 大 
厂商 中 普及 ,包括 Xilinx, Altera, Actel, Lattice, Crosspoint, Algotronix, Prizm, 
Plessey, Toshiba, Motorola 和 IBM, FPGA 市 场 迅 猛 增长 Gartner Dataquest 曾经 指出 
2006 年 市 场 规模 增长 到 45 亿美 元 ，2007 年 增长 到 52 亿美 元 ，2008 年 将 增长 到 63 亿 
XTC. FPGA 市 场 发 生 了 很 多 变化 ， 包 括 一 次 重大 重组 ,很 多 厂商 ， 比 如 Crosspoint、 
Algotronix, Prizm, Plessey, Toshiba, Moterola 和 IBM 从 FPGA 市 场 退 出 ; 另外 就 是 
FPGA 系列 减少 ， 以 及 因 成 本 问题 使 得 SRAM 成 为 主流 技术 。FPGA 市 场 目前 由 Xilinx 


掩 膜 成 本 (SM) 
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和 Altera 主导 ， 更 重要 的 是 ，FPGA 已 经 从 简单 的 胶合 逻辑 部 件 发 展 成 整套 的 系统 可 
编程 芯片 ， 包 括 板 载 物理 处 理 器 、 软 处 理 器 、 专 用 DSP 硬件 、 存 储 器 和 高 速 IO。 

在 20 世纪 90 年 代 ， 功 耗 问 题 成 为 焦点 ， 虽 然 那 时 候 FPCA 已 经 预示 了 门 阵 
列 市 场 的 结束 ， 但 ASIC 仍然 被 认为 具有 广阔 的 市 场 空间 ， 比 如 在 以 高 性 能 和 能 
量 效率 为 驱动 的 移动 通信 市 场 上 。 各 个 厂商 都 用 图 表 来 比较 FPGA 和 ASIC 的 性 
能 ， 以 吸引 开发 者 选择 他 们 的 产品 。 然 而 ， 这 种 方法 过 于 简单 ， 对 开发 者 的 选择 
没有 多 大 影响 ， 因 为 在 过 去 十 年 涌现 了 大 量 的 其 他 技术 ， 我 们 将 在 1. 2. 1 节 进 行 
介绍 。 

Steve Trimberger 在 一 次 大 会 演讲 (Trimberger 2007) 中 巧妙 地 概括 了 FPGA 
的 发 展 过 程 ， 表 1-1 对 此 做 了 总 结 。 从 表 1-1 中 可 以 看 到 ，FPCA 有 三 个 不 同 的 
发 展 阶 段 。 在 “发 明 ” 阶 段 是 FPGA 的 萌芽 期 ， 通 常 被 当 作 系统 部 件 来 提供 可 
编程 的 互 连 ， 如 1. 1 节 所 介绍 ， 这 种 互 连 可 以 为 设计 方案 的 进一步 改善 和 变动 提 
供 保 障 。 在 此 阶段 ， 设 计 工 具 非 常 简单 ， 但 设计 者 仍然 乐于 挖掘 查找 表 (Look 
Up Table，LUT) 或 者 单个 晶体 管 的 最 佳 性 能 。 在 20 世纪 90 年 代 初 ， 出 现 了 一 
次 前 面 所 提 到 的 技术 重 整 期 ，Trimberger 称 之 为 “大 架构 调整 "。 在 “扩张 ” 阶 
Et, FPGA 开始 解决 尺寸 的 问题 ， 因 此 设计 复杂 度 成 为 关键 。 意 味 着 FPGA 生产 
厂商 仅 提供 布线 工具 还 不 够 ， 基 于 硬件 描述 语言 (Hardware Description Lan- 
guage, HDL) 的 流程 由 此 诞生 。 最 后 一 个 是 “聚焦 ”阶段 ，FPCA 开始 整合 处 
理 器 和 高 速 互 连 。 第 5 章 将 详细 介绍 FPGA 的 这 些 新 特性 。 

表 1-1 三 个 时 代 的 FPGA 
时 间 时 代 描述 
ERAR, FPGA 远 小 于 问题 尺寸 ; 设计 自动 化 是 次 要 的 ; 架构 
1992-1999 | 扩张 阶段 | FPGA 大 小 接近 的 问题 尺寸 设计 便捷 化 成 为 关键 
2000 ~ 2007 “聚焦 ”阶段 FPGA 远 远 超过 了 典型 的 问题 尺寸 ; 逻辑 容量 受 限 于 LOO 带宽 








1984 ~ 1991 发 明 阶 段 











1.2.1 技术 特点 


除了 FPGA, ASIC 和 微 处 理 器 ， 过 去 的 10 年 中 涌现 了 大 量 其 他 值得 参考 的 
技术 。 现 介绍 如 下 。 

可 重 配 DSP 处 理 器 这 类 处 理 器 可 以 实现 一 定 程 度 的 定制 ， 但 仍然 是 基于 固 
定 的 架构 提供 一 些 应 用 所 需 的 功能 。 例 如 ，Tensilica 的 Xtensa 处 理 器 系列 ( Ten- 
silica Inc. 2005) 和 Elixent ( 即 现在 的 松下 ) HJ D -Fabrix， 后 者 是 一 款 可 重 配 半 
导体 知识 产权 (Intellectual Property, IP) 核 (Elixent 2005) 。 

结构 化 ASIC 的 实现 ， 使 得 有 人 认为 这 是 “ 门 阵 列 ” 技 术 思 想 以 结构 化 
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ASIC 重新 崛起 ， 结 构 化 ASIC 是 预定 义 的 硅 芯 片 框架 ， 用 户 可 以 用 缩减 的 硅 世 片 
制造 工艺 来 提供 互 连 能 力 。 这 项 技术 由 Altera 通过 硬 拷贝 技术 来 实现 (Altera 


^ Corp.2005) ， 让 用 户 可 以 将 其 FPGA 设计 迁移 到 ASIC 上 。 


目前 的 状况 是 有 很 多 技术 共存 面向 不 同 的 市 场 。 本 节 已 经 简要 介绍 了 硅 芯 片 技 
术 的 发 展 过 程 ， 这 些 新 技术 的 发 展现 在 已 经 成 为 本 书 所 讲 的 DSP 电子 开发 系统 的 
人 硬件。 j 

一 个 更 有 意思 的 观点 是 考虑 如 何 获得 这 些 技术 的 可 编程 能 力 。 图 1-2 所 示 为 
掩 模 成 本 和 制造 设备 成 本 上 升 问题 ， 使 得 针对 应 用 于 定制 的 解决 方案 发 展 前 景 加 
淡 。 因 此 ， 专 用 芯片 解决 方案 只 适合 大 批量 生产 ， 只 有 大 公司 才能 承担 这 种 风 
险 。 有 人 认为 纳米 技术 是 可 选 的 解决 方案 ， 但 我 们 认为 在 最 近 10 年 内 不 太 可 能 
实现 。 结 构 化 ASIC 可 以 看 成 门 阵 列 技术 的 重 现 〈 至 少 从 技术 原理 看 是 这 样 ) , 
它 将 是 低 功 耗 应 用 的 一 种 有 吸引 力 的 解决 方案 。 然 而 ， 作 者 认为 ， 其 可 编程 能 力 
预计 要 到 下 一 代 系 统 才 能 得 到 应 用 ， 届 时 ， 上 市 时 间 、 生 产 成 本 和 一 次 成 功 的 硬 
件 压 力 更 重要 ， 能 够 对 硬件 编程 的 思想 将 至 关 重 要 。 下 一 节 将 从 可 编程 能 力 角度 
来 对 各 种 技术 进行 对 比 。 


1.3 可 编程 能 力 的 影响 


很 多 文献 都 用 摩尔 定律 来 说 明 芯 片 技术 的 发 展 。 另 一 个 有 趣 的 观点 特别 适合 
说 明 FPGA 技术 的 发 展 过 程 ， 即 牧 村 浪潮 (Makimoto’s wave) ， 首 次 发 表 在 1991 
年 一 月 份 的 电子 周刊 上 。 牧 村 次 夫 (Tsugio Makimoto) 总 结 了 这 个 规律 ， 他 发 
现 半导体 技术 沿 着 “标准 ”和 “定制 ”交替 发 展 ， 如 图 1-3 所 示 。 在 20 世纪 60 
年 代 初 ， 人 们 开发 了 大 量 标准 部 件 投入 应 用 ， 即 开 公 司 的 TTL 7400 系列 逻辑 芯 
片 。20 世纪 70 年 代 初 ,开启 了 定制 大 规模 集成 电路 的 时 代 ， 人 们 为 专门 的 应 用 
定制 和 设计 芯片 ， 比 如 计算 器 。 因 为 芯片 集成 度 增 加 ， 开 始 出 现 中 等 规模 集成 电 
路 (Medium Scale Integration ，MSI) 。 微 处 理 器 在 20 世纪 70 年 代 的 发 展 过 程 见 
证 了 芯片 重新 向 标准 化 方向 波动 的 过 程 ， 此 时 ， 一 块 “ 标 准 ” 芯 片 可 以 应 用 到 
很 多 场合 。20 世纪 80 年 代 人 们 发 明了 ASIC， 设 计 者 可 以 克服 按 序 处 理 的 微 处 理 
器 的 缺陷 ， 从 而 解决 了 DSP 应 用 中 大 运算 量 面临 的 运算 速度 问题 。 后 来 出 现 了 
DSP 处 理 器 ， 比 如 TMS 32010, ， 和 传统 处 理 器 不 同 的 是 ， 它 们 基于 哈佛 架构 ， 使 
用 独立 的 程序 和 数据 存储 器 及 独立 总 线 。 即 使 有 DSP Ab HAE, ASIC 也 提供 了 可 
观 的 处 理 能 力 ， 更 重要 的 是 功 耗 低 。FPGA 从 “胶合 部 件 ” 发 展 而 来 ， 它 可 以 将 
其 他 部 件 连 接 在 一 起 形成 一 个 系统 ， 既 可 以 是 一 个 系统 部 件 也 可 以 自 成 一 个 系 
统 ， 因 此 广 受 欢迎 。 将 微 处 理 器 和 FPGA 耦合 到 异 构 平 台 上 具有 很 大 的 吸引 力 ， 
因为 这 是 彻底 的 可 编程 平台 ， 微 处 理 器 负责 DSP 系统 的 控制 相关 的 部 分 ，FPGA 
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负责 数据 相关 的 部 分 。 这 种 思想 构成 了 现场 可 编程 定制 计算 机 (FPGA - based 
Custom Computing Machines，FCCM) 的 基础 ， 几 大 国际 会 议 围 绕 该 领域 的 课题 定 
期 召开 ， 还 为 “可 配 计 算 ” 或 “可 重 配 计算 ” (Villasenor 和 Mangione - smith 
1997) 杂志 奠定 基础 。 在 这 些 系 统 中 ， 用 户 不 仅 能 够 在 硬件 上 实现 计算 复杂 的 算 
法 ， 还 可 利用 硬件 的 可 编程 能 力 来 改变 系统 的 功能 ， 即 “虚拟 硬件 ”， 也 就 是 说 这 
些 硬件 可 以 虚拟 地 实现 更 大 量 级 的 系统 (Brebner 1997) 。 第 14 章 将 继续 讨论 可 重 
配 系 统 。 

我 们 认为 可 编程 能 力 的 发 展 曾 经 有 两 个 重要 阶段 。 第 一 个 阶段 发 生 在 20 世 
纪 70 年 代 微 处 理 器 出 现 的 时 候 ， 此 时 工程 师 可 以 基于 固定 的 硬件 开发 可 编程 的 
解决 方案 。 当 时 主要 的 挑战 是 软件 环境 ;即使 已 经 有 C 语言 的 编译 器 和 汇编 程 
序 ， 但 开发 者 仍然 使 用 汇编 语言 ， 通 过 手动 编程 的 方法 来 达到 最 佳 性 能 。 于 是 人 
们 开始 设计 库 函 数 ， 提 供 最 基本 的 L/O 函数 ， 从 而 让 设计 者 能 够 集中 精力 在 实现 
应 用 上 。 这 些 函 数 现在 已 经 成 为 商业 编译 器 和 汇编 程序 的 核心 组 成 部 分 。 随 着 对 
高 级 语言 需求 的 增加 ， 现 在 很 多 程序 都 通过 高 级 语言 ， 比 如 C 语言 和 Java 语言 
来 实现 ， 甚 至 更 高 级 的 语言 环境 ， 如 UML 也 越 来 越 多 地 被 使 用 。 

可 编程 能 力 发 展 的 第 二 个 阶段 与 FPGA 有 关 。 在 图 1-3 中 ， 牧 村 指出 现场 可 
编程 能 力 在 制造 过 程 中 被 标准 化 ， 但 也 可 以 为 应 用 定制 。 如 果 将 第 一 个 浪潮 看 成 
是 软件 领域 的 可 编程 能 力 而 硬件 保持 不 变 ， 则 此 阶段 可 认为 是 提供 了 硬件 可 编程 
能 力 。 这 是 一 个 很 大 的 挑战 ， 因 为 很 多 计算 机 编程 工具 主要 是 基于 固定 的 硬件 平 
台 ， 可 以 做 一 些 优 化 ， 主 要 是 从 算法 方面 来 改进 性 能 。 通 过 FPGA, HATA A 
由 定义 ， 从 而 能 够 最 好 地 适 配 应 用 的 架构 。 然 而 也 存在 一 个 问题 ， 即 每 种 方案 都 
需要 人 工 去 做 ， 并 且 每 个 硬件 工程 师 都 需要 知道 设计 的 问题 并 验证 硬件 设计 。 


标准 化 






为 电视 和 计 
算 器 定制 
的 LSI 





在 制造 业 中 是 
标准 的 ， 但 是 在 
应 用 中 是 定制 的 
定制 


图 1-3 牧 村 浪潮 (由 Reed Business Information 许可 复制 ) 


这 两 个 阶段 的 一 些 趋 势 具有 相似 性 。 在 早期 ， 原 理 图 捕获 用 于 前 期 电路 图 设 
计 ， 等同 于 汇编 级 的 编程 。 随 后 出 现 硬 件 描述 语言 ， 比 如 VHDL 和 Verilog， 可 
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以 用 来 生成 更 高 层次 的 抽象 ， 与 目前 使 用 的 基于 C 语言 的 工具 ， 如 Systemc 和 
Mentor Graphics 的 CatapultC 作为 基于 单一 软件 的 编程 环境 相似 。 起 初 作为 软件 
编程 语言 时 ， 人 们 有 点 不 相信 这 种 方法 生成 的 代码 质量 。 然 而 ， 通 过 开发 改进 成 
本 -效率 的 综合 工具 ， 最 终 获得 开发 者 的 普遍 认可 。 综 合 工 具 相 当 于 高 级 编程 语 
言 软件 编译 器 和 库 函 数 的 演进 ， 目 前 使 用 HDL 来 实现 FPGA 已 经 是 常规 方法 。 
FXE, IP 核 的 出 现 反映 了 库 函 数 的 演进 ， 例 如 ， 软 件 流 的 VO 编程 函数 常 被 
当 作 通 用 函数 进行 复 用 ， 开 发 者 都 相信 这 种 库 函 数 代码 的 质量 ， 因 为 随 着 技术 的 
发 展 ， 他 们 面临 着 在 相同 时 间 内 需要 写 出 更 多 代码 的 压力 。 早 期 的 IP 核 已 经 从 
基本 库 函 数 发 展 到 复 信 和 号 处 理 和 通信 函数 ， 通 常 可 从 FPGA 生产 厂商 和 各 种 网 络 
IP 库 获 得 。 


1.4 FPGA 面临 的 挑战 


在 早期 ，FPGA 被 当 作 胶 合 逻 辑 芯 片 将 多 个 部 件 组 合成 一 个 复杂 的 系统 。 后 
3k, FPGA 逐渐 被 当 作 完 整 的 系统 ， 见 表 1-1。 除 了 技术 的 演进 ， 还 有 一 些 其 他 
因素 在 推动 FPGA 的 发 展 。 比 如 ， 分 布 式 算法 (Distributed Arithmetic, DA) d£ 
术 的 应 用 推动 了 FPCA 向 DSP 平台 发 展 (Goslin 1995, Meyer - Baese 2001), DA 
技术 使 得 FPCA 的 实现 能 够 采用 基于 LUT/ 加 法 器 结构 的 FPGA 模块 ， 并 且 可 以 在 
一 些 DSP 变换 处 理 上 获得 相当 可 观 的 性 能 增益 ， 比 如 定点 系数 滤波 和 快速 傅 里 
叶 变 换 (Fast Fourier Transform, FFT) 等 变换 函数 。 虽 然 这 些 技 术 说 明 FPGA 可 
以 为 DSP 应 用 提供 高 效 的 解决 方案 ， 但 期 待 从 FPCA 硬件 中 尽 可 能 挖掘 性 能 ， 并 
且 由 几 个 人 花 数 月 时 间 来 实现 这 种 创新 设计 的 想法 已 经 不 合 时 家 了。 技术 演进 带 
来 的 复杂 度 增 加 ， 意 味 着 当前 FPGA 技术 所 能 提供 的 能 力 与 设计 者 使 用 现 有 工具 
所 能 提供 的 解决 方案 之 间 的 差距 在 扩大 。 这 与 ASIC 产业 中 的 “设计 产 出 差距 ” 
(IRTS 1999) 相似 ， 即 按照 摩尔 定律 增长 60% 时 ，ASIC 设计 能 力 却 只 增长 
25% 。 由 于 设计 者 不 需要 处 理 亚 微米 的 设计 问题 ， 因 此 这 一 问题 在 FPGA 中 并 不 
严重 。 然 而 ， 一 些 关键 问题 仍然 存在 。 
如 何 理解 将 DSP 功能 映射 到 FPCA 上 。 有 些 方面 是 相对 基本 的 ， 比 如 乘法 运 
算 、 加 法 运算 和 延迟 分 别 被 映射 到 板 载 乘法 器 、 加 法 器 和 寄存 器 及 RAN 单元 。 
然而 ， 理 解 浮 点 和 定点 、 字 长 优化 、FPGA 中 算术 变换 的 成 本 函数 及 路 径 延迟 的 
影响 等 都 是 必须 从 系统 层面 考虑 的 问题 ， 并 且 处 理 起 来 更 加 困难 。 
设计 语言 。 目 前 ， 像 VHDL 和 Verilog 等 硬件 描述 语言 及 其 各 自 的 综合 过 程 
都 已 经 成 熟 。 然 而 ， 随 着 复杂 度 的 增加 需要 将 固定 和 可 编程 微 处 理 器 核 集成 到 一 
个 完整 系统 ， 用 户 开 始 用 审慎 的 眼光 评判 FPCGA ， 并 且 寻 求 能 够 更 清晰 地 表示 系 
统 描述 的 设计 方法 。 因 此 ，EDA 领域 有 一 种 趋势 是 使 用 C 语言 作为 设计 语言 ， 
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但 同时 使 用 其 他 表示 方法 ， 比 如 类 似 同 步 数 据 流 的 基于 计算 模块 (Model of Com- 
putation, MoC) 的 方法 。 

开发 和 使 用 IP 核 。 当 缺乏 针对 设计 语言 和 综合 问题 快速 可 靠 的 解决 方案 时 ， 
片上 系统 (System on Chip, SoC) 实现 的 四 市 场 应运 而 生 ， 它 填补 了 这 个 空当 ， 
并 且 能 够 对 硬件 进行 快速 原型 设计 。 由 于 设计 功能 可 以 通过 HDL 实现 ， 并 且 可 
以 通过 传统 的 综合 工具 高 效 地 转化 为 FPGA 代码 ， 因 此 软 核 具 有 很 大 的 吸引 力 。 
此 外 ， 人 们 已 经 开发 了 处 理 器 核 ， 从 而 可 以 增加 专用 的 功能 。 这 些 方法 的 吸引 力 
在 于 平台 大 部 分 是 固定 的 ， 从 而 可 以 快速 实现 特定 应 用 的 功能 。 

设计 流程 。 大 多 数 设计 流程 的 效率 与 通过 高 层 实 现 的 FPGA. 功能 的 描述 方式 
有 关 ， 大 多 数 是 复数 函数 。 现 在 ，FPGA 技术 发 展 速度 很 快 ， 构 成 FPGA 和 处 理 
器 的 系统 开始 以 SoC 平台 出 现 ， 甚 至 直接 用 FPGA 来 实现 单独 的 SoC 平台 ， 主 要 
是 因为 FPGA 具有 板 载 硬 核 和 软 核 、 高 速 通信 和 可 编程 资源 的 优点 ， 可 以 构成 一 
个 完整 的 系统 。 通 常 ， 软 件 流程 比 处 理 器 甚至 多 处 理 器 更 先进 ， 因 为 架构 是 固定 
的 。 虽 然 已 经 开发 了 FPCA 等 硬件 平台 的 开发 工具 ， 但 包括 处 理 器 和 FPCGA 的 异 
构 平 台 ， 仍 然 需要 软件 来 实现 。 

本 书后 续 章 节 将 详细 探讨 FPGA 所 面临 的 这 些 挑战 。 
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第 2 章 DSP 基础 


2.1 引言 


在 电子 技术 发 展 早期 ,信号 以 其 自然 的 形态 进行 处 理 和 传输 ， 通 常 源 信号 
(比如 语音 ) 产生 模拟 信号 ， 然 后 转换 为 电信 号 ， 再 通过 合适 的 媒介 ( 比如 宽 
带 ) 连接 进行 传输 。 人 们 很 早 就 意识 到 DSP 的 优势 。 首 先 ， 数 字 硬 件 通常 比 模 
拟 器 件 性 能 更 好 并 且 更 稳定 ， 而 模拟 器 件 容 易 老 化 ， 并 且 在 生产 过 程 中 容易 出 现 
不 确定 的 因素 而 影响 性 能 。 其 次 ，DSP 具有 确定 的 精度 ， 特 别 是 它 可 以 准确 地 复 
制 信息 (Rabiner 和 Gold 1975) 。 此 外 ， 通 信 界 有 强烈 的 意愿 将 多 种 信号 传输 网 
络 ， 如 电话 网 、 地 面 电视 网 和 计算 机 网 络 融合 为 单一 的 或 者 多 种 数字 传输 网 ， 因 
此 迫切 需要 将 各 种 信息 格式 转换 为 对 应 的 数字 信息 格式 。 

微 处 理 器 、DSP 微 处 理 器 和 FPGA 都 是 处 理 数字 信和 号 的 合适 平台 ， 所 以 了 解 
诸如 在 FPGA 平台 上 实现 DSP 算法 面临 的 一 些 基 本 问题 变 得 非常 重要 。 这 些 问 题 
范围 很 广 ， 比 如 了 解 不 同 应 用 的 采样 速率 和 计算 速率 以 便 理解 这 些 需 求 是 如 何 影 
响 最 终 FPGA 实现 的 ， 再 比如 针对 特定 FPGA 平台 选择 合适 的 数字 表示 形式 及 这 
种 选择 对 DSP 系统 性 能 的 影响 。 算 法 的 选择 和 运算 的 精度 会 对 最 终 实 现 的 质量 
有 深刻 影响 。 

本 章 将 介绍 背景 知识 并 解释 上 述 问 题 。 首 先 介 绍 DSP 的 一 些 基 本 思想 ， 它 
们 会 影响 硬件 实现 ， 比 如 采样 速率 、 计 算 速 率 和 延迟 。 然 后 简要 地 描述 常用 的 
DSP 算法 ， 先 回顾 各 种 变换 ， 包 括 快速 传 里 叶 变 换 (FFT)、 离 散 余 弦 变 换 
(DCT) 和 离散 小 波 变 换 (DWT) 。 本 章 还 将 回顾 滤波 过 程 并 简要 介绍 有 限 冲 激 
响应 (FIR) 滤波 器 、 无 线 冲 激 响应 (IIR) 滤波 器 和 波形 数字 滤波 器 (WDF), 
最 后 一 节 将 重点 介绍 自 适应 滤波 器 ， 包 括 最 小 均 方 (LMS) 算法 和 递归 最 小 二 乘 
法 (RLS) 。 信 和 号 的 数字 化 意味 着 如 何 表示 和 处 理 这 些 信号 对 最 终 系统 的 精确 度 
非常 重要 ， 因 此 本 书 的 最 后 一 章 将 讨论 DSP 实现 算法 的 算术 意义 。 

本 书 主 要 针对 DSP 系统 在 FPGA 硬件 上 的 实现 ， 因 此 本 章 将 向 读者 介绍 DSP 算 
法 ， 从 而 为 后 面 将 要 描述 的 很 多 实例 提供 背景 知识 。 参 考 文献 列 出 了 一 些 介绍 DSP 
系统 背景 的 人 门 书籍 ， 其 中 既 有 基本 原理 (Lynn 和 Fuerst 1994, Williams 1986), ， 也 
有 更 深入 讨论 的 教程 (Rabiner 和 Gold 1975)。 此 外 ,我 们 推荐 Omondi 关 于 计算 机 算 
术 运 算 的 书 作 为 入门 读物 (Omondi 1994) 。 
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本 章 的 结构 如 下 。2. 2 节 将 详细 介绍 信号 数字 化 的 过 程 ; 2. 3 节 将 介绍 DSP 
的 基本 思想 ， 特 别 是 采样 速率 、 延 迟 及 流水 线 等 与 FPGA 实现 相关 的 问题 ; 2.4 
节 将 介绍 DSP 变换 ， 包 括 FFT, DCT 和 离散 小 波 变换 ，2. 5 节 将 总 结 基本 的 滤波 
过 程 ; 2. 6 节 将 描述 自 适应 滤波 算法 。 


2.2 DSP 系统 基础 


现在 对 信息 处 理 、 解 释 和 理解 的 需求 越 来 越 强烈 ， 在 很 多 领域 ， 如 工业 、 军 
事 和 消费 产品 都 有 应 用 。 这 些 应 用 需求 涉及 语音 、 音 乐 、 图 像 或 视频 ， 也 可 能 涉 
及 通信 系统 中 的 错误 检测 、 纠 正 及 加 密 算法 。 因 此 需要 对 大 量 不 同类 型 的 内 容 进 
行 实时 处 理 ， 采 样 速率 的 范围 可 以 从 生物 应 用 的 几 Hz 到 图 像 处 理应 用 中 的 几 十 
MHz。 很 多 情况 下 ， 信 和 号 处 理 的 主要 目的 可 能 是 增强 有 用 信和 号 部 分 ， 比 如 图 像 处 
理 中 的 边缘 检测 ; 或 者 是 消除 干扰 ， 比 如 雷达 系统 中 人 为 干扰 信号 ; 也 可 能 是 移 
除 不 需要 的 输入 ， 比 如 消除 电话 系统 的 回声 或 噪声 。 另 一 类 DSP 算法 主要 是 用 
于 捕获 、 存 储 和 传输 数据 、 音 频 、 图 像 及 视频 ， 以 及 在 数字 广播 和 电信 系统 中 成 
功 应 用 的 压缩 技术 。 

近 几 年 ， 很 多 类 似 上 述 处 理 的 需求 已 经 被 标准 化 ， 图 2-1 所 示 为 大 量 应 用 中 
所 需要 的 算法 。 在 通信 系统 中 ， 为 了 使 用 正 交 频 分 复 来 提供 高 效 传输 ， 需 要 实现 
执行 FFT 的 电路 。 在 图 像 压 缩 中 ， 联 合 图 像 专 家 小 组 (Joint Photographic Experts 
Group, JPEG) 和 后 来 的 运动 图 像 专家 小 组 ( Motion Picture Experts Group, 
MPEG) 的 演进 推动 了 JPEG 与 MPEG 标准 的 发 展 ; 这 些 标准 涉及 大 量 核心 DSP 
算法 ， 尤 其 是 DCT 和 运动 估计 与 补偿 算法 。 

人 们 很 早 就 意识 到 将 信号 数字 化 的 优势 ， 一 方面 是 由 于 数字 硬件 通常 在 性 能 
上 和 稳定 性 上 都 优 于 模拟 器 件 ， 另 一 方面 ， 模 拟 硬件 容易 老化 并 且 在 生产 过 程 中 
质量 不 确定 。DSP 则 可 以 提供 可 靠 的 精度 ， 尤 其 是 能 够 完美 复制 (Rabiner 和 
Gold 1975) 。DSP 的 迅速 发 展 得 益 于 成 本 不 断 降低 的 硬件 发 展 ， 使 得 DSP 技术 能 
够 简单 地 与 计算 机 技术 结合 ， 在 很 多 情况 下 还 可 以 在 相同 的 计算 机 系统 上 实现 。 
图 2-1 中 提 到 的 很 多 应 用 增加 了 对 复杂 DSP 系统 的 需求 ， 反 过 来 又 促进 了 实现 
高 效 DSP 算法 研究 领域 的 发 展 。 这 也 同样 促进 了 对 DSP 微 处 理 器 的 需求 ， 我 们 
将 在 第 3 章 介绍 。 
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图 2-1 DSP 应 用 示例 


2.3 DSP 系统 定义 


图 2-2 所 示 为 DSP 系统 的 基本 实现 过 程 ， 模 拟 信号 首先 经 过 模 - 数 (A-D) 
转换 器 转换 成 数字 信号 ， 经 过 DSP 系统 处 理 后 再 转换 回 模拟 信号 。 信 和 号 的 数字 
化 通过 图 2-3 所 示 的 过 程 实现 ， 模 拟 信号 首先 转换 为 一 组 脉冲 信号 ， 然 后 量化 为 
一 组 数字 。 通 常 将 DSP 系统 的 输入 数字 流 记 为 x (n), ， 输 出 信号 记 为 y (n) F 
始 模拟 信号 可 能 来 自 于 声音 、 音 乐 、 生 物 信号 、 无 线 信号 、 雷 达 脉 冲 或 图 片 。 显 
然 ， 数 据 的 表示 方法 是 一 个 关键 因素 ， 本 章 后 续 章 节 将 进行 讨论 。 由 于 将 信号 数 
字 化 为 数据 的 操作 、 存 储 或 传输 提供 了 多 种 可 能 途径 ， 因 此 如 图 2-1 所 示 ， 从 而 
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h, 
yy a AA 


图 2-2 基本 DSP 系统 


数字 化 ”| 用 mæ 
一 ————» 54125 127 54 -41 -87 


图 2-3 模拟 信号 的 数字 化 过 程 





催生 了 各 种 信号 处 理 方法 。 

很 多 DSP 功能 既 可 以 在 时 域 实现 ， 也 可 以 经 过 FFT 变换 后 在 频 域 实现 ， 比 如 
滤波 (Rabiner 和 Gold 1975), DCT 是 JPEG 图 像 压 缩 的 重要 机 制 ， 图 像 压 缩 又 是 
MPEG 标准 的 基础 。DCT 算法 使 得 裸眼 看 不 见 的 图 像 成 分 能 够 被 计算 机 识别 ， 基 本 
思想 就 是 将 空间 的 图 像 转换 到 频 域 。 经 过 MPEG 标准 所 定义 的 量化 ， 这 些 图 像 成 
分 可 以 被 移 除 ， 而 且 不 会 对 整体 的 图 像 质量 造成 明显 影响 。 如 果 继 续 增 加 数据 的 移 
除 量 ， 则 可 以 进一步 减 小 图 像 文件 的 大 小 ， 当 然 这 种 压缩 操作 要 以 图 像 质 量 下 降 为 
代价 。 小 波 变换 同时 提供 时 域 和 频 域 的 信息 ， 它 不 仅 广泛 应 用 在 图 像 压 缩 中 ， 同 时 
也 可 大 量 应 用 在 信和 号 关键 信息 的 提取 及 噪声 的 消除 上 。 典 型 的 例子 是 从 生理 信和 号 
比如 脑 电 图 (Electroencephalogram, EEG) 中 提取 关键 特征 。 


2.3.1 采样 速率 


奈 奎 斯 特 -香农 〈( Nyquist- Shannon) 采样 定理 是 DSP 系统 最 基本 的 一 个 原 
理 。 该 定理 指出 : 如 果 信 号 是 有 限 带 宽 并 且 采 样 频率 大 于 2 倍 信和 号 带宽 ， 则 可 从 
采样 信号 精确 重 构 出 连续 时 间 基 带 信号 。 更 详细 的 解释 请 读者 参考 香农 和 奈 奎 斯 
特 的 文章 (Nyquist 2002, Shannon 1949), ， 以 及 前 面 提 到 的 一 些 教程 (Lynn 和 
Fuerst 1994, Rabiner 和 Gold 1975, Williams 1986) 。 简 单 地 说 ， 在 将 模拟 信和 号 
数字 化 时 ， 采样 速 率 必须 至 少 是 最 大 频率 (被 数字 化 的 这 段 信号 ) M, 
才能 够 保全 信息 并 且 避 免 混 至 (Shannon 1949)。 换 句 话说 ， 信 号 要 求 是 有 限 带 
宽 ， 意 味 着 某 个 最 大 频率 大 以 外 没有 频谱 能 量 ， 从 而 可 以 确定 奈奈 斯 特 采样 速 
X f, H oro 

举 个 简单 的 例子 ， 对 语音 的 标准 采样 速率 是 8kHz， 足 以 获得 能 够 精确 表示 
看 音信 号 的 频率 分 量 ， 因 为 4kHz (甚至 可 能 是 3kHz) 以 上 的 频谱 能 量 对 信和 号 质 
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量 几 乎 没有 影响 。 相 反 ， 音 乐 信 号 的 数字 化 要 求 采样 速率 达到 44. 2kHz 去 覆盖 
22.1kHz 的 频率 范围 ， 此 频率 范围 已 经 足够 大 ， 因 为 人 类 耳 打 无 法 检测 到 超过 
18kHz 的 频率 。 与 语音 相 比 ， 音 乐 信号 包含 更 复杂 的 频谱 分 量 ， 自 然 就 需要 相应 
地 增加 采样 速率 。 

在 有 的 应 用 中 ， 采 样 速率 和 人 类 的 感知 能 力 并 无 关系 ， 需 要 考虑 其 他 因素 。 
以 生物 信号 数字 化 为 例 ，EEG 是 通过 贴 在 皮肤 上 的 电极 收集 大 脑 的 生物 电信 号 ， 
所 捕获 的 信号 波形 中 夹杂 着 大 量 噪声 。 一 种 特殊 的 应 用 是 听力 测试 ， 将 刺激 物 放 
置 在 受 测 者 耳 条 上， 观察 头皮 上 某 个 位 置 的 脑 电波 信和 号。 通常 将 该 测试 称 为 听 性 
脑 干 活动 (Auditory Brainstem Response，ABR)， 因 为 它 是 要 寻找 大 脑 的 脑 干 区 
域 的 脑 电 图 刺激 响应 ， 每 10ms 激发 一 次 。ABR 波形 有 意义 的 频率 范围 是 100 ~ 
3000Hz， 因 此 在 将 信号 转换 为 数字 信号 前 ， 需 要 将 记录 的 EEG 信号 进行 带 通 滤 
波 。 然 而 ， 由 于 边沿 的 滚 降 速 度 较 慢 ， 可 能 会 存在 干扰 频率 。 将 EEG 信和 号 转换 
为 数字 信和 号， 可 能 需要 再 次 滤波 ， 很 可 能 使 用 小 波 去 噪 算法 来 移 除 上 边沿 和 下 边 
沿 的 频率 分 量 。 所 需要 的 ABR 波形 持续 时 间 为 20ms， 刺 激 前 后 各 10ms。EEG 
以 20kHz 频率 进行 采样 ， 其 奈 奎 斯 特 频 率 为 10kHz， 超 过 信和 号 最 高 频率 分 量 
(3kHz) 的 2 倍 。 最 后 得 到 200 个 采样 点 ， 刺 激 前 后 各 100 个 采样 点 。 

采样 速率 与 DSP 计算 速率 有 关系 ， 因 此 性 能 需求 可 表示 为 吞吐 速率 。 图 2-4 
所 示 为 典型 采样 速率 的 值 ， 尽 管 采样 率 不 能 独立 作为 技术 选择 的 参考 。 比 如 ， 音 
频 应 用 中 的 128 Hik FIR 滤波 器 ,采样 速率 可 能 是 44. 2kHz, 但 所 要 求 的 吞吐 速 
率 将 达到 11. 2M 样本 /s， 因 为 每 个 样本 都 需要 做 128 次 乘法 和 127 次 加 法 (255 
次 运算 ) 。 如 果 错 误 地 使 用 采样 速率 进行 比较 ， 则 处 理 器 的 时 钟 频率 也 将 同样 错 
误 地 被 用 作 指标 。 由 于 吞吐 速率 可 通过 将 时 钟 频率 除 以 每 个 样本 所 需要 的 处 理 周 
期 得 到 ， 因 此 技术 开发 者 喜欢 用 时 钟 频率 来 展示 设备 的 性 能 。 最 典型 的 是 ， 个 人 
电脑 (Personal Computer, PC) 通常 用 时 钟 频率 作为 性 能 指标 ， 但 是 如 我 们 将 在 
第 3 章 将 所 要 讨论 的 ， 吞吐 速率 更 加 重要 。 


控制 音频 雷达 
医学 
测量 语音 图 像 处 理 
Pe ee ee ee 
Hz kHz MHz 
对 数 刻度 


2-4 不 同 DSP 系统 中 的 采样 速率 


2.3.2 时 延 和 流水 线 


延迟 是 指 系统 从 接收 到 输入 的 时 刻 开始 到 产生 结果 为 止 所 需要 的 时 间 。 在 同 
步 系统 中 ， 延 迟 可 以 定义 为 产生 输出 之 前 所 需要 的 时 钟 周期 数 。 假 设 一 个 简单 的 
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系统 ， 输 入 为 ao Maln), HA y(n), FA Tiaene 表 示 其 延迟 ， 如 图 2-5 所 示 ， 
设 7 表示 从 输入 到 输出 所 需 的 时 间 ， 则 乔 吐 速率 可 用 1/Tp 表 示 。 

在 同步 系统 中 ， 吞 吐 量 与 时 
钟 速率 有 关 。 假 设 Ty 表示 数字 





电路 中 寄存 器 之 间 的 关键 路 径 ， 和 | | 
就 可 以 确定 可 得 到 的 最 大 时 钟 速 
率 ， 并 且 和 逻辑 器 件 的 数量 及 两 输 xm | | 
个 寄存 器 之 间 的 物理 距离 有 直接 


关系 。 通 过 增加 额外 的 流水 线 操 

作 阶段 ， 可 以 减少 电路 中 的 关键 800 
路 径 ， 但 其 代价 是 增加 了 延迟 及 
电路 面积 和 功 耗 。 图 2-6 通过 简 
单 的 示例 解释 了 流水 线 的 过 程 。 图 2-5 DSP 系统 延迟 示意 图 

图 2-6 中 ， 计 算 模块 有 6 个 独立 

的 阶段 。 图 中 的 流程 描述 了 如 何在 电路 的 某 些 位 置 放置 流水 线 阶段 ， 从 而 减少 寄 
存 器 之 间 的 物理 距离 ， 最 终 增 加 时 钟 速率 。 图 2-6a 中 ， 延 迟 为 一 个 时 钟 周期 ， 
但 最 大 时 钟 速率 只 有 36. 4MHz。 图 2-6b 中 ， 每 个 主要 的 逻辑 块 之 间 加 了 流水 线 
阶段 ， 其 最 大 时 钟 速率 达到 100MHz， 延 迟 为 6 个 时 钟 周期 。 如 果 将 一 个 流水 线 
阶段 移 到 其 中 一 个 较 大 的 计算 模块 比如 模块 C) ， 并 且 去 掉 模 块 D 后 面 的 流水 
线 阶段 ， 则 如 图 2-6c 所 示 ， 关 键 路 径 可 以 缩短 到 Sms, 时钟 速率 最 大 可 达 
200MHz， 但 仍然 可 保持 延迟 为 6 个 时 钟 周期 。 图 中 的 示例 解释 了 电路 时 序 优化 
的 基本 原理 ， 它 是 高 效 设计 过 程 和 设计 工具 中 的 重要 特征 ， 第 8 章 和 第 9 章 将 详 
细 讨 论 。 





图 2-6 流水 线 简单 示例 
a) 时 钟 速 率 =36.4MHz b) 时 钟 速率 =100MHz c) 时 钟 速率 =200MHz 


$23 DSP 基础 17 


2.4 DSP 变换 


本 节 将 简要 回顾 2. 2 节 中 提 到 的 一 些 关键 DSP 变换 ， 并 简单 介绍 其 应 用 。 
2.4.1 快速 傅 里 叶 变换 | 


傅 里 叶 变换 是 将 信号 的 时 域 表 示 转 换 为 频 域 表示 。 基 本 思想 是 将 信和 号 分 解 成 
频率 分 量 ， 将 信号 用 一 组 正弦 波 和 余弦 波 来 表示 。 周 期 函数 了 (i) 的 健 里 叶 级 数 展 
开 可 用 式 (2-1) 表示 。 

A x la + Y. [a,cos(w,t) + b,sin(o,t) ] (2-1) 
n=l 


式 中 ,对 任意 非 负 整 数 n，w, 表示 f(t) 的 第 n 次 谐 波 ， 单 位 为 rad (弧度 )， 
记 为 


N 


w, =n i (2-2) 
a, RRSO 的 侦 次 谐 波 傅 里 叶 系 数 ， 记 为 
a, = Ff cos( ont) di (2-3) 
b, 表示 奇 次 谐 波 伟 里 叶 系 数 ， 记 为 
b, = TJ, simo D (2-4) 


离散 傅 里 叶 变换 (Discrete Fourier Transform, DFT) 是 连续 傅 里 叶 变换 的 离 
散 形式 ， 用 于 采样 信号 的 变换 。 输 入 序列 在 时 间 上 有 限 ，DFT 仅 计 算 这 一 段 时 间 
内 信和 号 的 频率 分 量 ， 因 此 离散 傅 里 叶 逆 变换 (Inverse DFT, IDFT) 将 只 利用 这 
些 频率 分 量 重 构 ， 可 能 无 法 完全 重 构 原始 信号 (周期 信号 除外 )。 式 (2-5) 给 
出 了 DFT 的 定义 ， 其 中 输入 采样 信号 是 复数 序列 x(0) ,x(1),…,x(N -1)， 变 换 
后 的 输出 用 复数 序列 X(0) ,XCD) ,… ,X(N -1) 表 示 。 


N-1 
X(k) = Y x(n)e e (2-5) 
n=0 


AP, k=0, 1, = N-1, 

FFT 是 DFT 的 一 种 高 效 实 现 方 法 ， 对 很 多 应 用 影响 都 非常 大 。 其 中 一 个 应 
用 是 实现 正 交 频 分 复 用 技术 (Orthogonal Frequency Division Multiplexing, 
OFDM) 。 这 种 扩 频 数字 调制 方式 应 用 在 通信 商 ， 尤 其 是 无 线 通信 技术 ， 比 如 ， 
它 大 幅 提高 了 802. 11 标准 所 能 提供 的 数据 速率 。 其 中 的 算法 就 是 基于 快速 傅 里 
叶 道 变换 (Inverse FFT, IFFT) 得 到 的 频率 分 量 正 交 的 性 质 ， 从 而 可 以 让 每 个 频 
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率 分 量 作为 一 个 子 载波 。 值 得 注意 的 是 ， 接 收 机 使 用 FFT? 来 检测 子 载波 并 重 构 
传输 信号 。 每 一 个 子 载波 上 仍然 采用 通常 的 低 符号 速率 调制 方式 ， 比 如 相 移 键 控 
或 正 交 幅度 调制 ， 由 应 用 来 决定 具体 使 用 的 调制 方式 。 在 802. 11a 中 ， 数 据 速 率 


最 高 可 达到 54Mbit/s， 实 际 - 

RI FSR RIM ies 
如 果 噪 声 功率 较 大 ， 则 可 以 前 向 OFDM QAM 

采用 相 移 键 控 调 制 ， 此 时 数 REN 

据 速 率 较 低 ; 如 果 噪 声 功率 图 2-7 无 线 通信 系统 发 射 机 

较 小 ， 则 可 以 采用 正 交 幅度 

调制 (Quadrature Amplitude Modulation, QAM), BI 2-7 所 示 为 一 个 典型 通信 系 
统 发 射 链 路 的 主要 组 成 部 分 。 

IEEE 802. 11a 无 线 局 域 网 标准 使 用 OFDM 可 以 在 美国 5GHz ISM 频段 
125MHz 带宽 范围 内 工作 ，20MHz 的 信道 上 使 用 了 52 个 频率 ( 子 载波 ) ， 其 中 48 
个 用 于 传输 数据 ， 另 外 4 个 用 于 同步 导 频 。 同 步 导 频 非 常 重要 ， 因 为 保持 正 交 性 
是 OFDM 的 基础 ， 要 求 收发 机 精确 同步 。 


2.4.2 离散 余弦 变换 


离散 余弦 变换 (Discrete Cosine Transform, DCT) 以 DFT 为 基础 ， 但 只 针对 
实数 ， 即 DFT 变换 的 余弦 部 分 ， 其 定义 见 式 (2-6)。 
N-1 
X(k) - Dole" P i) (2-6) 
HM; k=0, 1, =, N-l1, 
X (2-7) 给 出 了 二 维 离散 余弦 变换 的 形式 ， 它 是 JPEG 图 像 压缩 的 核心 计 
算 方 法 ， 也 是 MPEG 标准 的 特点 。 
$3 
fue natos E Xs He) Hye Le] Gm 
式 中 , u 表示 水 平方 向 的 频率 ，0 <wu<8; v 表示 垂直 方向 的 频率 , 0<v<8; a 
(w) 和 a(v) 是 常数 ; f,, 表 示 像 素 (x,y) 的 值 ; F, ,表示 (u, v) 位 置 DCT 系数 
的 值 。 图 2-8 所 示 为 DCT 用 于 JPEG 图 像 压缩 的 过 程 。 示 例 中 的 图 像 大 小 为 8 x8 
像素 ， 对 图 像 的 行 和 列 实施 离散 余弦 变换 。 频 率 解 析 结 果 将 更 重要 的 低频 部 分 放 
在 矩阵 的 左上 角 ， 沿 着 矩阵 向 其 右 下 角 移 动 时 ， 频 率 分 量 增加 。 一 旦 图 像 全 部 转 
换 为 数值 表示 的 频率 分 量 ， 高 频 分 量 便 可 以 通过 量化 过 程 被 移 除 掉 ， 因 为 这 些 分 
量 对 图 像 质 量 影响 较 小 。 当 被 移 除 的 频率 分 量 越 多 ， 压 缩 率 越 高 ， 到 一 定 程度 








日 ”应 该 为 FFT， 原 书 有 误 一 一 译 者 注 。 
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时 ， 图像 质量 将 开始 变 差 。 我 们 称 之 为 有 损 压 缩 。 图 像 处 理 后 的 数值 结果 通过 
“之 ”字形 方式 输出 ， 如 图 2-8 所 示 。 


对 每 个 8x8 
像素 块 进行 转换 





每 个 宏 块 由 8x8 
像素 块 组 成 





采用 “之 ”字形 的 像素 的 数值 表示 
图 2-8 DCT 在 图 像 压 缩 中 的 应 用 


2.4.3 小 波 变 换 


小 波 是 一 种 快速 振荡 衰减 的 波形 。 小 波 分 解 是 多 分 辩 率 滤波 和 分 析 的 有 力 工 
有 具 ,通过 将 原始 小 波 ( 母 小 波 ) 缩放 后 的 小 波 与 输入 信和 号 相关 来 实现 。 小 波 变 
换 将 信号 分 解 到 频带 上 并 且 携 带 时 间 信 息 (Mallat 1989) ， 对 于 准 平稳 波形 的 频 
率 分 析 非 常 实用 ， 而 时 不 变 FFT 可 能 无 法 提供 完整 的 信息 。 

目前 ， 人 们 提出 了 很 多 种 小 波 族 ， 比 如 Daubechies 、Coiflet 和 Symmlet 
(Daubechies 1992) 。 小 波 分 解 可 通过 多 种 方式 实现 ， 即 下 一 节 将 介绍 的 连续 小 
波 变换 (Continuous Wawelet Transform, CWT) 或 离散 小 波 变换 (Discrete Wave- 
let Transform, DWT). 


2.4.4 离散 小 波 变换 


DWT 通过 一 组 滤波 器 实现 ， 如 图 2-9 所 示 ， 图 中 描述 了 6 层 小 波 分 解 的 示 
例 。 在 DWT 的 每 个 阶段 ， 输 入 信号 都 通过 一 个 高 通 滤波 器 和 低 通 滤波 器 ， 得 到 
有 关 细 节 和 逼近 信息 的 系数 。 

R (2-8) 是 低 通 滤波 器 的 表达 式 。 在 每 个 阶段 都 移 除 一 半 频 率 ， 信 号 的 信 
息 可 以 用 一 半数 量 的 系数 表示 ， 因 此 ， 低 通 滤波 器 和 高 通 滤波 器 公式 可 分 别 写 为 
R (2-9) 和 式 (2-10) ， 其 中 , n 用 2n 代替 ， 表 示 以 下 采样 过 程 : 


Aa cain = FaN (2-8) 
nati = Yates - 3) (2-9) 


nat = Y aam -D (2-10) 
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小 波 分 解 是 子 带 滤波 的 一 种 形式 ， 在 DSP 中 已 经 广泛 应 用 。 通 过 将 信号 分 
解 到 如 图 2-9 所 示 的 频率 带 ， 先 去 除 表示 一 些 高 频 分 量 (比如 D1 层 和 D3 层 ) 
的 系数 ， 然 后 利用 其 余 的 系数 重 构 信 号 ， 可 达到 去 噪 的 目的 。 很 自然 地 ， 小 波 分 
解 也 采用 类 似 DCT 的 方法 来 做 数据 压缩 ， 目 前 已 经 应 用 在 图 像 压 缩 上 。 

小 波 分 解 同样 也 是 用 于 医疗 信号 分 析 的 功能 强大 的 工具 。 比 如 ,利用 2.3.1 
节 介 绍 的 EEG 记录 得 到 的 ABR 信号 来 确定 听觉 灵敏 度 。ABR 响应 本 身 是 一 个 确 
定 的 信号 ， 即 给 相同 的 对 象 输入 相同 的 激发 信号 ， 将 得 到 相同 的 锁 时 响应 ， 通 常 
称 之 为 Jewett 波形 (Jewett 1970), ， 如 图 2-10 所 示 。ABR 信号 的 幅度 通常 小 于 
1nV， 并 且 被 脑 部 活动 的 信号 所 淹没 ,这些 信号 的 幅度 可 能 达到 100kV。 为 了 提 





时 间 /ms 


Wave I — 听觉 神经 (第 VIID 
Wave [ 一 耳蜗 核 ( 脑 桥 ) 
Wave Il 一 上 橄榄 核 

Wave V 一 外 侧 丘 系 

Wave V - FE 


图 2-10 EEG 信号 呈现 的 ABR Jewett 波形 
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取 ABR 信号 ， 常 常 将 几 千 个 响应 信号 平均 。 由 于 背景 噪声 本 质 上 是 白 噪 声 ， 因 
此 平均 之 后 使 得 噪声 趋 于 0。 同 时 ， 保 留 了 确定 性 的 ABR 信和 号， 波形 可 能 稍微 
有 些 变化 。 即 使 抑制 了 噪声 ， 但 仍然 很 难 判断 被 测 对 象 是 否 听 到 激发 声音 ， 尤 其 
是 当 激发 声音 强度 正好 处 于 门限 附近 时 。 响 应 锁定 在 激发 后 10ms， 并 且 ， 在 某 
些 频带 有 尖峰 出 现 ， 即 200Hz、500Hz 和 900Hz 位 置 。 小 波 分 解 能 够 在 提取 出 这 
些 关 键 的 频率 信息 同时 保留 一 些 有 用 的 时 域 信息 来 隔离 这 些 峰 值 区 域 。 图 2- 11 
比较 了 激发 前 后 波形 的 D4 He ( 见 图 2-9) 的 小 波 系数 。 图 中 形象 地 解释 了 小 波 
分 解 是 如 何 聚 焦 到 信号 特定 的 时 频 区 域 的 。 


6 


4 


刺激 后 
Po 
0 
p 
ux 刺激 前 
-2 = m m wm 
=4 
-6 
2 4 6 8 10 12 14 16 
系数 


图 2-11 D4 层 小 波 分 解 系数 


2.5 滤波 器 结构 


2.5.1 有 限 冲 激 响应 滤波 器 


式 (2-11) 是 一 个 简单 的 有 限 冲 激 响 应 (Finite Impulse Response, FIR) YE 
波 器 的 表达 式 ， 式 中 a; 表示 生成 低 通 或 高 通 滤波 器 响应 所 需 的 系数 ，N 表示 滤 
波 器 抽 头 的 数量 。 通 常 a; 和 输入 x(n) 长 度 都 为 N， 即 对 x(n),n=0,1,…,N- 
1,ai 不 为 零 。 

式 (2-12) 的 函数 式 可 以 通过 经 典 的 信号 流 图 (Signal Flow Graph, SFG) 
来 表示 ， 如 图 2-12 所 示 ， 其 中 N=3。 在 图 中 ， 延 迟 模块 xz 表示 数字 延迟 ， 数 
据 通过 不 同 的 分 支 输送 ， 带 标签 的 分 支 表示 要 与 变量 相 乘 ， 黑 点 表示 求 和 。 当 乘 
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法 和 加 法 用 功能 模块 表示 时 ， 也 可 以 用 图 2-13 所 示 的 模块 图 来 描述 。 
N-1 
y(n) = gto à) (2-11) 
y(n) 2agx(n) +a,x(n-1) +a,x(n-2) (2-12) 
FIR 滤波 器 的 一 些 重 要 特点 如 下 。 
1) 倒 加 性 。 当 满足 如 下 条 件 时 ,又 加 定理 成 立 : 如 果 滤 波 器 输入 为 x(m) + 


u(n), WARA y(n) +v(n)， 而 y(n) 和 w(n) 分 别 是 从 输入 x(n) 和 w(n) 得 
到 的 。 


x(n) E E 
| | | y(n) 


a2 
€ 一 > € — 


x(n) 








Al 2-12 原始 FIR 滤波 器 信和 号 流 图 图 2-13 FIR 滤波 器 信号 流 图 


2) 一 致 性 。 如 果 滤 波 器 输入 a(n) 得 到 输出 a,(n)， 则 滤波 器 具有 一 致 性 。 

3) 移 不 变性 。 如 果 滤 波 器 输入 x(n+k)， 输 出 y(n +k)， 其 中 y(n) 是 x(n) 
的 输出 结果 ， 则 滤波 器 是 移 不 变 的 。 

具有 上 述 所 有 特征 的 滤波 器 称 为 线性 时 不 变 (Linear Time Invariant, LTI) 
滤波 器 。 由 于 具有 这 些 特性 ， 因 此 这 类 滤波 器 可 以 级 联 或 并 联 ， 分 别 如 图 2-14a 
和 图 2-14b 所 示 。 


x(n)ix(in)| 滤波 器 | y(1n) m| 滤波 器 Wn)! y(n) 
! " #1 #2 1 
1 
1 





图 2-14 FIR 滤波 器 设置 
a) 级 联 FIR 滤波 器 b) 并 联 FIR 滤波 器 


设计 数字 滤波 器 的 一 种 基本 方法 是 从 期 望 的 频率 响应 开始 的 ， 对 其 进行 逆 滤 
波 得 到 冲 激 响 应 ， 截 断 冲 激 响应 ， 然 后 加 窗 处 理 来 消除 虚像 (Bourke 1999, 
Williams 1986) 。 比 如 我 们 考虑 典型 的 低 通 函数 ， 如 图 2-15 所 示 ， 转 换 到 时 域 
后 ， 就 得 到 经 典 的 从 零点 开始 的 sinc 函数 。 事 实 上 ， 我们 需要 用 有 限 数量 的 系 
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其 作 时 移 ， 从 而 时 间 负 轴 上 不 会 有 值 。 如 果 我 们 设计 这 种 滤波 器 ， 并 将 其 转换 到 
频 域 ， 则 会 发 现在 截止 频率 和 带 通 频率 上 会 出 现 振荡 或 者 纹 波 效应 ， 并 且 通 带 到 
阻 带 区 域 之 间 的 过 渡 带 变化 非常 平缓 。 这 种 纹 波 通常 称 为 吉 布 斯 (Gibbs) MR, 
是 由 Willard Gibbs 在 1899 年 发 现 的 。 

通过 增加 滤波 器 系数 或 抽 头 的 数量 可 以 抑 
制 纹 波 效应 ， 从 而 更 好 地 逼近 滤波 器 ， 但 增加 1 
了 计算 开销 。 加 窗 也 可 以 抑制 纹 波 效 应 ， 这 实 os 
际 上 可 以 看 成 是 在 原始 频谱 图 上 加 矩形 窗 ， 其 
他 所 熟知 的 窗 函数 还 有 Von Hann 窗 ， 汉 明 CET. A Sm 
(Hamming) 窗 和 Kaiser 窗 (Lynn 和 Fuerst mue 
1994, Williams 1986) ， 它 们 以 不 同 的 方式 从 E 2-15 低 通 滤波 器 响应 
不 同 程度 上 减 小 纹 波 和 过 度 带 。 滤 波 器 设计 的 
最 终结 果 是 确定 滤波 器 长 度 和 系数 值 ， 以 尽 可 能 满足 滤波 器 响应 的 要 求 。FIR YË 
波 器 的 实现 相对 容易 理解 ， 因 为 时 域 和 频 域 之 间 有 着 直接 联系 。FIR 滤波 器 还 有 
以 下 的 优点 : 

1) 线性 相位 ， 即 输入 信号 的 延迟 不 会 导致 相位 失真 ; 

2) 固有 的 稳定 性 ; 

3) 可 以 通过 有 限 的 算术 运算 实现 ; 

4) 对 量化 误差 不 敏感 。 


2.5.2 相关 
相关 是 与 数字 通信 有 关 的 函数 ， 可 以 通过 式 (2-13) 计算 。 
y(n) = = QiX( + i) (2-13) 


w=-@ 


X (2-13) 对 于 有 限 长 序列 的 相关 ， 即 x(n), n=0, 1, =, N-1, 表达 
式 可 写 为 
N-1 
y(n) = 2 aln +i) (2-14) 
X (2-14) 与 式 (2-11) 中 的 FIR 滤波 器 表达 式 相 似 ， 只 是 数据 流 x 的 顺 
序 正 好 相反 。 相 关 运算 的 结构 也 与 FIR 滤波 器 相似 。 


2.5.3 无 限 冲 激 响应 滤波 器 


FIR 滤波 器 的 主要 缺点 是 需要 很 多 抽 头 来 实现 频率 响应 的 某 些 特性 ， 如 迅速 
截止 ， 使 得 计算 成 本 很 高 。 无 限 冲 激 响 应 (Infinite Impulse Response, IIR) 滤波 
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器 通过 使 用 以 前 的 输出 结果 可 以 克服 这 个 缺点 ， 如 式 〈2-15) 所 示 。 式 (2-16) 
的 传输 函数 表达 式 可 以 很 好 地 解释 ， 图 2- 16 所 示 为 VR 滤波 器 的 结构 。 


N-1 M-1 
y(n) = Zalai) + > by(n - 1) (2-15) 
iz j=l 





图 2-16 直接 形式 IIR 滤波 器 


IIR 滤波 器 的 设计 过 程 与 FIR 滤波 器 不 同 ， 通 常 采用 模拟 滤波 器 的 设计 方法 。 
通过 模拟 滤波 器 * 平面 和 z 域 (Grant 等 1989) 之 间 的 变换 ， 可 以 实现 数字 滤波 
器 。 人 们 提出 了 很 多 设计 方法 ， 比 如 冲 激 不 变法 (Williams 1986), z 变换 匹配 法 
和 Bilinear 变换 (Grant 等 1989, Williams 1986) 。 设 计 的 结果 是 得 到 一 个 传输 函 
数 表 达 式 ， 包 括 式 (2-17) 中 的 零点 和 极点 。 主 要 的 问题 是 要 维持 稳定 性 ， 只 要 
能 确保 极点 处 于 单位 圆 内 就 可 实现 。 这 些 零点 和 极点 的 位 置 与 滤波 器 的 特性 有 直接 
关系 。 比 如 ， 如 果 单 位 圆 上 的 极点 没有 零点 来 抵消 ， 则 这 种 滤波 器 将 在 某 些 频率 上 
输出 无 穷 大 值 (Meyer- Baese 2001) 。 


4 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


H(z) = 一 二 一 (2-16) 


(2-&1) (2-6): (7 £y) 
(z-pi) (z -p3) (zz py) 

由 于 存在 图 2-16 中 所 示 的 反馈 回路 ， 这 种 结构 对 量化 误差 非常 敏感 ， 并 且 
会 随 着 滤波 器 阶 数 增长 而 增加 。 因 此 ， 滤 波 器 通过 式 (2-18) 的 二 阶 IR 滤波 器 


H(z) =C (2-17) 
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的 级 联 来 实现 ， 组 成 图 2-17 所 示 的 结构 ， 图 中 ， 个 二 阶 
IIR 滤波 器 ,j=1,2,…,N/2。 
y(n) =aox(n) +a,;x(n-1) *a;x(n-2) *b,y(n-1) +by(n—-2)(2-18) 


2.5.4 波形 数字 滤波 器 


除了 FIR 滤波 器 和 IIR 滤波 器 ， 还 有 一 类 波形 数字 滤波 器 〈Wave Digit Fil- 
ter, WDF) 的 滤波 器 结构 也 广泛 使 用 ， 它 们 对 系数 变化 不 太 敏 感 。 这 个 特点 非 
常 重 要 ， 因 为 在 IIR 滤波 器 中 ， 系 数 变动 决定 了 实现 滤波 器 系数 所 能 达到 的 精 
度 ， 并 且 与 滤波 器 结构 所 需要 的 动态 范围 有 直接 关系 。 从 硬件 角度 看 ， 内 部 字 长 
的 调整 及 滤波 器 性 能 非常 重要 ， 其 必然 会 影响 吞吐 速率 。WDF 对 内 部 结构 的 精 
度 所 导致 的 变化 不 太 敏 感 ， 因 此 减少 了 系数 变化 所 导致 的 响应 失真 程度 。 这 对 很 
多 DSP 应 用 都 很 重要 ， 有 几 方 面 的 原因 : OER LAR MFR ABORT E UR 
波 器 的 规格 ， 从 而 使 得 硬件 开销 较 小 ;@ 对 系数 敏感 度 低 的 结构 产生 的 近似 误差 
也 较 小 ， 这 里 ， 近 似 误差 由 滤波 器 结构 的 有 限 算术 精度 所 致 (后 面 将 讨论 截 短 
问题 和 字 长 导致 的 误差 )。 对 于 TIR 滤波 器 ， 设 计 的 出 发 点 是 利用 模拟 滤波 器 中 
低 敏 感度 的 特点 来 生成 低 敏感 度 的 数字 滤波 器 。 

WDF 代表 了 一 类 以 经 典 模拟 滤波 器 网 络 为 基础 建 模 的 滤波 器 ( Fettweis 和 
Nossek 1982, Fettweis 等 ”1986，Wanhammar 1999) ， 模 拟 滤 波 器 网 络 通 常 配置 
呈 格 型 或 阶梯 型 结构 。 对 于 工作 在 低频 的 电路 ， 电 路 的 尺寸 比 波长 小 ， 设 计 者 可 
以 将 电路 当 作 集 总 无 源 器 件 或 集 总 有 源 器 件 之 间 的 连接 ， 且 在 电路 中 的 任何 一 点 
都 具有 唯一 的 电压 和 电流 值 ， 依 据 是 电路 方面 的 相位 变化 可 以 忽略 。 针 对 这 种 结 
构 有 很 多 电路 级 设计 优化 技术 可 应 用 ， 比 如 Kirchoff 定律 。 然 而 ， 对 高 频 电 路 ， 
上 述 假设 不 再 成 立 ， 可 能 需要 解 麦克 斯 韦 (Maxwell) 方程 。 为 此 ， 设 计 者 可 以 
考虑 一 个 事实 ， 即 他 们 是 要 解决 某 些 特 定位 置 的 问题 ， 比 如 终端 电压 和 电流 
(Pozar 2005) 。 利 用 一 些 特 殊 类 型 的 电路 ， 比 如 具有 相同 电 传播 时 间 的 传输 线 ， 
可 以 将 电路 当 作 传输 线 器 件 ， 这 种 器 件 可 以 作为 分 布 元 件 ， 其 特性 由 长 度 、 传 播 
常数 和 特征 阻抗 决定 。 

Fettweis 等 人 (1986) 深入 地 讨论 了 生成 WDF 的 过 程 。 主 要 的 设计 方法 是 
利用 传输 线 滤波 器 来 产生 滤波 器 ， 要 将 传输 线 滤波 器 与 使 用 集 总 电路 元 件 的 经 典 
滤波 器 联系 起 来 ， 从 而 可 以 利用 这 些 结构 的 特性 ， 我 们 称 之 为 参考 滤波 器 。 利 用 
一 个 称 为 Richard 变量 的 复 频率 变量 y 来 映射 参考 结构 ， 可 以 实现 WDF 与 参考 
滤波 器 的 一 臻 性， 该 方法 可 以 将 参考 结构 有 效 地 映射 到 y 域 。 使 用 参考 结构 可 
以 将 其 全 部 固有 的 无 源 性 及 无 损 特 征 传 递 到 数字 域 ， 因 此 可 以 获得 很 好 的 滤波 器 
性 能 ， 同 时 也 降低 了 系数 敏感 性 ， 从 而 可 以 使 用 较 短 的 字 长 。Fettweis 等 人 
(1986) 给 出 了 最 简单 且 最 合适 的 少 ， 如 式 (2-19) 所 示 的 z 变量 的 双 线 性 变换 。 
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y =% =tanh(p7/2) (2-19) 

AF, p 表示 实际 的 复 频 率 。y 变量 的 一 个 特点 是 ， 实 频率 w 通过 式 (2-20) 与 
实 频率 p KK. 

$ - tan( 0172) ,p 2 ja, =j (2-20) 


XX (2-20) 表明 ， 参 考 域 的 实 频率 对 应 数字 域 的 实 频率 。 还 有 一 个 特点 是 ， 
滤波 器 是 因果 的 (Fettweis 等 1986) , 2-18 (Wanhammar 1999) 所 示 为 WDF 
滤波 器 设计 的 基本 原理 。 图 2- 18a 所 示 为 一 个 集 总 元 件 滤波 器 ， 其 中 的 多 个 无 源 
WRIT Los, 1/C3s 和 Lys 分 别 映射 到 图 2- 18b 模拟 滤波 器 中 的 Row, R/Y 及 Ripo 
图 2- 18e 表示 利用 式 (2-19) 映射 等 效 传输 线 电路 得 到 的 yy 域 滤波 器 。 


RI L2 La 





c) 


” 图 2-18 波形 数字 滤波 器 构造 (Wanhammar 1999) 
a) 引用 集 总 参数 元 件 滤波 器 b) 域 滤波 器 结构 c) 产生 的 双 端 滤波 器 
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WDF 组 成 模块 
如 图 2-18c 所 示 ， 基 本 WDF 的 构造 由 多 个 单 端口 、 双 端口 和 多 端口 元 件 组 
成 。 图 2- 19 所 示 为 双 端口 元 件 的 基本 描述 。 网 络 可 以 描述 为 人 射 波 4 和 反射 波 
B,， 它 们 与 端口 电流 I 和 71、 端口 电压 六 A V, mO ERER ALR, AK (Fett- 
weis 等 1986) 。 
A, =V, +R (2-21) 
B =V; +R,L, (2-22) 





B] 2-19 . 双 端 口 适配器 的 基本 描述 


X (2-23) 表示 其 传输 函数 S2 。 


S5 = KB,/A, (2-23) 
式 中 , KA 
K = /R,/R, (2-24) 


Fettweis && A, (1986) 在 一 篇 文章 中 证 明 损失 a 与 电路 参数 有 关 ， 即 电感 系 
数 或 电容 系数 、 频 率 w， 对 于 设计 周到 的 滤波 器 ， 在 通 带 内 对 幅度 的 敏感 度 较 
小 ， 因 此 可 以 使 用 较 短 的 系数 字 长 。 

参考 滤波 器 基本 结构 由 多 个 普通 的 双 端 口 和 三 端口 元 件 或 适配器 组 成 ， 如 图 
2-18c 所 示 。 更 详细 的 模块 定义 可 参考 Fettweis 等 人 的 著作 (Fettweis 等 ”1986， 
Wanhammar 1999) ， 主 要 是 组 成 乘法 器 和 加 法 器 。 


2.6 自 适 应 滤波 

第 2.2 ~2.5 节 描 述 了 广泛 应 用 的 一 些 变换 和 滤波 算法 。 通 常 ， 它 们 可 用 于 
时 频 域 的 变换 ， 如 利用 FFT 或 DCT， 或 者 用 滤波 算法 来 识别 信号 中 的 某 些 特征 ， 
比如 EEG 滤波 。 然 而 ， 也 有 很 多 应 用 其 信号 的 有 意义 的 区 域 未 知 ， 需 要 其 他 的 
滤波 算法 来 完成 ， 这 就 是 我 们 所 熟知 的 自 适 应 算法 。 从 高 速 实 现 的 角度 看 ， 实 现 
这 类 算法 是 一 种 挑战 。 本 书 专门 有 一 章 讨论 自 适 应 滤波 器 的 硬件 实现 。 
2.7 自 适应 滤波 基础 


滤波 器 的 基本 功能 是 从 信号 中 去 除 不 需要 的 部 分 。 实 现 最 优 设计 通常 需要 知 
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道 有 用 信号 中 某 些 统计 量 (比如 均值 和 相关 函数 ) 的 先 验 知识 。 获 得 这 些 信息 
后 ， 就 可 以 设计 最 优 滤波 器 ， 能 够 根据 一 些 统计 上 的 准则 来 减少 无 用 信和 号。 一 种 
常用 的 方法 是 令 滤波 器 的 理想 响应 与 实际 响应 之 间 的 误差 信号 的 均 方 值 最 小 。 最 
小 化 可 得 到 一 个 针对 平稳 输入 信号 的 唯一 最 优 设计 的 代价 函数 ， 即 维 纳 〈 Wie- 
ner) 滤波 器 (Widrow 和 Hoff 1960)。 然 而 ， 维 纳 滤波 器 只 有 当 输 入 数据 的 统计 
特征 与 设计 滤波 器 时 所 依赖 的 先 验 信息 匹配 时 才 是 最 优 的 ， 因 此 当 输 入 信号 的 统 
计 特性 未 知 或 者 信号 是 非 平稳 的 时 候 ， 就 不 再 是 最 优 设 计 。 此 时 ， 需 要 时 变 滤波 
器 来 应 对 这 种 变化 。 一 种 可 行 的 方案 是 采用 自 适应 滤波 器 ， 可 以 形象 地 称 为 
“ 自 设计 ”滤波 器 ， 本 质 上 是 通过 迭代 算法 来 计算 滤波 器 参数 的 更 新 值 。 用 这 些 
更 新 值 来 计算 新 滤波 器 的 抽 头 ， 新 
的 输入 数据 利用 新 滤波 器 的 输出 来 
构成 下 一 组 参数 的 更 新 值 。 如 果 输 
入 的 是 平稳 信号 (Haykin 2001), 
则 滤波 器 的 算法 经 过 几 次 迭代 之 后 
将 按照 设 定 的 准则 收敛 到 最 佳 方 
案 。 如 果 信号 是 非 平稳 的 ， 则 算法 
将 跟踪 输入 信号 的 统计 量变 化 ， 成 

动 与 奉 取 决 于 算法 本 身 的 收 伍 速 度 。 。 图 2 20 - 通用 自 适 应 浪 波 锋 系 统 结构 

和 输入 信号 统计 特性 变化 的 快慢 。 

图 2-20 所 示 为 自 适应 滤波 器 的 通用 结构 。 图 中 ， 信 号 x(n) 同时 输入 FIR 滤波 器 
和 自 适 应 算法 模块 。 自 适应 FIR 滤波 器 的 输出 y(n) 表示 对 期 望 信号 y(n) 的 估 
计 。 误 差 信号 e(n) 表 示 y(n) 与 ys(m) 的 差 。 自 适应 滤波 器 使 用 误差 信号 和 输入 
信号 x(m) 来 计算 滤波 器 权重 w (n) 的 更 新 〈 信 息 ) 。 图 中 所 绘 的 自 适应 滤波 器 结 
构 适 用 于 多 种 应 用 ，2. 7. 1 节 将 讨论 其 中 的 部 分 应 用 


2.7.1 自 适应 滤波 器 的 应 用 


由 于 自 适应 滤波 器 能 够 工作 在 非 平稳 条 件 下 ， 因 此 自 适应 滤波 器 已 经 成 为 那 
些 输入 信和 号 统计 特性 未 知 或 变化 的 DSP 应 用 的 重要 部 分 。 比 如 ， 信 道 均 衡 、 回 
升 抵消 或 自 适应 波束 形成 等 。 基 本 功能 可 归结 为 利用 自 适应 滤波 器 完成 一 系列 工 
作 ， 即 系统 辨识 、 逆 系统 辨识 、 噪 声 消 除 和 预测 。 对 于 每 种 应 用 ， 都 是 从 基本 的 
滤波 器 结构 衍生 出 不 同 的 形式 ， 如 图 2-20 所 示 。 本 节 将 结合 应 用 实例 来 详细 说 
明 这 些 自 适应 滤波 器 的 实现 过 程 。 

图 2-21 所 示 为 自 适 应 滤波 器 在 系统 辨识 中 的 应 用 。 本 例 中 ， 自 适应 滤波 器 
W H BS ZEOSEZR ALI EE H ER, H 的 冲 激 响应 用 h(n) 表 示 ,n=0,1,2,3,…,% ,n < 
0 时 h(n) 为 0。x(n) 同 时 输入 到 五 和 自 适应 滤波 器 。 与 前 面 的 例子 相似 ， 先 计 


x(n) 





ELAR SR 
See fea 
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算 误差 信号 e(n) ， 然 后 用 它 来 计算 滤波 器 权重 的 更 新 (信息 ) w(n), ， 进 而 计算 
未 知 系统 h(n) 的 估计 。 在 电信 系统 中 ， 由 于 公共 交换 电话 网 络 中 的 混合 器 器 件 
阻抗 不 匹配 会 导致 电话 线 中 出 现 回 声 ， 因 此 ， 自 适应 系统 可 以 先 通 过 训练 对 未 知 
回声 路 径 建 模 ， 滤 波 器 通过 合成 回声 信号 生成 反 向 的 回声 路 径 ， 然 后 从 原始 接收 
信号 中 减 去 回声 干扰 信号 。 

图 2-22 Bron A wt R St HEIR. 
与 图 2-21 的 示例 相似 ， 自 适应 滤 
波 器 会 尝试 建 模 ， 但 这 里 是 对 未 知 
系统 五 的 逆 系 统 建 模 ， 从 而 可 以 抵 
消 未 知 系统 的 效果 。 典 型 的 应 用 是 
信道 均衡 (Drewes 等 ”1998), 通 
过 对 信道 干扰 特征 的 逆 效 应 建 模 ， ieee " 

可 以 去 除 符号 间 干 扰 和 传输 信道 中 图 2-21 系统 辨识 
的 噪声 。 
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图 2-22 HRAPAR 


图 2-23 所 示 为 基于 自 适应 滤波 器 的 预测 系统 。 典 型 的 应 用 是 电话 中 的 音频 
压缩 。 自 适应 差分 脉冲 编码 调制 (Adaptive Differential Pulse Code Modulation, 
ADPCM) 算法 会 预测 下 一 个 音频 样本 ， 然 后 只 对 预测 值 和 实际 值 的 差 进 行 编码 
和 传输 。 通 过 这 种 方法 ， 语 音 的 数据 速率 可 以 降 到 32kbivs 的 一 半 ， 同 时 还 保持 
原来 的 质量 。 国 际 标准 (国际 电信 联盟 International Telecommunication Union, 
ITU) 给 ADPCM 定义 的 结构 是 一 个 基于 VIR 的 两 个 极点 、6 个 零点 的 自 适应 预测 
器 (ITU-T 1990)。 





图 2-23 ”预测 系统 
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图 2-24 所 示 为 自 适应 噪声 消除 的 结构 ， 它 与 前 面 的 示例 稍 有 不 同 。 图 中 ， 
参考 信号 是 数据 s (n ) 和 噪声 " (n) 的 鲜 加 信号 。 输 入 到 自 适 应 滤波 器 的 噪声 
v'(n) 5RÆv (nn) 强 相关 ,但 与 理想 信号 s(n) 不 相关 。 很 多 应 用 中 使 用 了 这 种 
预测 系统 。 比 如 可 用 于 电话 网 络 的 回声 抵消 ， 也 可 用 于 免 提 电话 中 的 声学 回声 消 
除 。 在 医学 应 用 中 ， 噪 声 消除 可 用 来 去 除 心电图 (Electrocadiogram, ECG) 信号 
中 的 干扰 ， POET NUBINEORDIPEAKIR URS ECG 曲线 中 去 除 母 体 的 心跳 信 
号 (Baxter 2006), 


s (n)+0(n) 


v(n) 





图 2-24 噪声 消除 


自 适 应 波束 形成 是 另 一 种 关键 应 用 ， 也 可 用 于 噪声 消除 (Litva 和 Lo 1996, 
Moonen 和 Proudler 1998, Ward 等 ”1986 ) 。 典 型 的 自 适应 波束 形成 器 的 功能 是 
抑制 除 预 期 方向 以 外 的 各 个 方向 的 信号 ， 通 过 在 波束 方向 图 的 干扰 方向 引入 零 陷 
来 实现 。 波 束 形成 器 输出 信号 的 加 权 组 合 ， 送 到 一 组 空间 上 分 离 的 天 线 ， 包 含 一 
根 主 天 线 和 多 根 辅助 天 线 。 主 信和 号 来 自主 天 线 ， 具 有 很 强 的 方向 性 。 辅 助 信号 含 
有 和 干扰 信号 的 样本 ， 有 可 能 淹没 理想 信和 号。 滤波 器 通过 去 除 任何 与 主 输入 信号 有 
共同 特点 的 信号 ( 即 与 干扰 噪声 强 相关 的 信号 ) 来 消除 干扰 。 将 来 自 辅助 天 线 
和 主 天 线 的 数据 输入 自 适应 滤波 器 ， 然 后 计算 权重 ， 将 这 些 权重 用 于 延迟 的 输入 
数据 来 产生 输出 波束 。 第 12 章 将 详细 讨论 。 


2.7.2 自 适应 算法 


自 适应 滤波 巧妙 的 地 方 在 于 计算 更 新 的 滤波 器 权重 的 算法 。 主 要 有 两 种 算 
法 ， 递归 最 小 二 乘 (Recursive Least Square, RLS) 算法 和 最 小 均 方 (Least Mean 
Square, LMS) 算法 。RLS 算法 从 LMS 算法 衍生 而 来 。 它 比 LMS 算法 收敛 速度 
Wk, 但 代价 是 计算 复杂 度 增加 ， 影 响 其 在 实时 信号 处 理 中 的 应 用 。LMS 算法 简 
单 而 有 效 ， 在 合适 的 条 件 下 性 能 优良 (Haykin 2001) 。 然 而 ， 其 缺点 是 对 输入 数 
据 和 矩阵 的 条 件数 敏感 ， 并 且 收 敛 速度 慢 。 

滤波 器 系数 可 以 根据 滤波 器 的 结构 表示 为 抽 头 权重 、 反 射 系数 或 旋转 参数 ， 
分 别 对 应 横向 结构 、 格 型 结构 或 收缩 阵列 (Haykin 1986)。LMS 和 RLS 算法 可 
用 于 图 2-13 所 示 的 横向 滤波 器 的 基本 结构 ， 先 由 一 个 线性 合成 器 计算 系统 输入 
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x(n) 的 加 权 和 ， 然 后 将 其 从 期 望 信号 y(n) 中 减 掉 ， 得 到 误差 信号 e(n)， 如 式 
(2-25) 所 示 。 在 图 2-20 中 ,，w(z) 表 示 自 适应 算法 的 权重 矢量 。 


N-1 
e(n) = y(n) - X, Wx, (2-25) 
i=0 


目前 没有 确切 的 方法 来 确定 针对 某 个 特殊 应 用 的 最 佳 自 适应 算法 。 算 法 的 选 
择 归 结 于 与 算法 有 关 的 多 种 特征 之 间 的 平衡 ， 比 如 

1) 收敛 速度 ， 即 自 适 应 算法 达到 最 优 方案 附近 可 接受 的 误差 范围 内 的 
速度 ; 

2) 稳 态 误差 ， 即 最 优 方 案 的 逼近 ; 

3) 跟踪 输入 数据 统计 量变 化 的 能 力 ; 

4) 计算 复杂 度 ; 

5) 处 理 病 态 输 入 数据 的 能 力 ; 

6) 对 实现 所 用 的 字 长 变化 的 敏感 度 。 


2.7.3 LMS 算法 


LMS 算法 是 一 种 随机 梯度 算法 ， 它 利用 固定 步 长 参数 来 控制 横向 滤波 器 抽 
头 权重 的 更 新 ， 如 图 2-20 所 示 〈Widrow Fil Hoff 1960)。 算 法 的 目的 是 使 y(n) 和 
yest(z) 之 间 的 均 方 误差 最 小 。 均 方 误差 与 未 知 的 抽 头 权重 之 间 的 关系 构成 一 个 
多 维 抛物 面 ， 通 常 称 之 为 误差 曲面 (如 图 2-25 所 示 的 二 抽 头 横向 滤波 器 的 误差 
曲面 ) (Haykin 2001) 。 曲 面 有 唯一 的 最 小 点 表示 最 佳 维 纳 解 的 抽 头 权重 (定义 
为 Wiener- Hopf 方程 ， 详 见 2.7.4 节 )。 然 而 ， 在 非 平稳 条 件 下 ， 误 差 曲面 不 停 
地 变化 ， 因 此 LMS 算法 需要 能 够 跟踪 曲面 的 底部 。LMS 算法 通过 在 每 个 离散 时 
刻 n 选择 合适 的 权重 矢量 w(n) 来 达到 代价 函数 VOw (n) ) 最 小 化 的 目的 。 策 略 是 
根据 瞬时 梯度 值 dV(w(n) )/dw(n) 来 更 新 参数 估计 ， 即 
dV(w(n) ) 
dw(n) 
AF, 是 一 个 正 的 步 长 ， 前 面 的 负 号 是 确保 参数 估计 误差 沿 着 误差 曲面 下 降 。 

代价 函数 V(w(n) ) 的 目的 是 使 均 方 误差 最 小 ， 可 以 得 到 式 (2-27) 所 示 的 
递归 参数 更 新 方程 。 


w(n+1) =w(n) -u (2-26) 


w(n+1) =w(n) -ux(n) (y(n) -y.4(n) ) (2-27) 
用 于 更 新 式 (2-26) 抽 头 权重 矢量 的 递归 表达 式 可 写 为 
w(n+1) =w(n) -ux(n) (y(n) -x"(n)w(n) ) (2-28) 


X (2-28) 可 进一步 分 解 成 式 (2-29) 所 示 的 滤波 器 输出 ， 式 (2-30) 所 
示 的 估计 误差 和 式 (2-31) 所 示 的 抽 头 权重 自 适应 更 新 过 程 。 
Yea (n) 2w'(n)x(n) (2-29) 
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e(n) =y(n) -yest(P) (2-30) 
w(n+1) =w(n) *ux(n)e(n) (2-31) 
对 于 抽 头 的 权重 矢量，LMS 算法 每 次 迭代 过 程 只 需要 2N +1 次 乘法 和 2N 
次 加 法 。 因 此 ， 它 有 相对 简单 的 结构 ， 硬 件 资源 和 权重 数 成 正比 。 


2.7.4 RLS 算法 


Ny 
相对 LMS 算法 而 言 ，RLS 是 一 种 计算 ”价值 函数 mS OX] Eu 
复杂 的 算法 , 它 由 最 小 二 次 方 (Least VO NS Ke 
Square, LS) 算法 推导 而 来 。LS 算法 的 代 OF ih 
价 函 数 J(n) 的 目标 是 令 平方 误差 和 最 小 ， YSZ Ly 
如 式 (2-32) BER. SS 


N-1 


J(n) = ¥ le(n-i) |? (2-32) 
i=0 













将 式 (2-25) RAR (2-32) ， 得 到 | e 
e SM 图 2-25 “二 抽 头 横向 滤波 器 
J(n) = 5 ly(n) - Sw x(n - i) | 误差 曲面 (Haykin 2001) 
bm iz0 


(2-33) 
将 离散 时 域 的 信号 序列 转换 为 矩阵 - 矢量 形式 可 以 简化 方程 表达 式 。 考 虑 样 
本 数 为 N 的 数据 值 ， 式 (2-25) 可 以 写成 


T 


el Yı * | W 
e xj || W, 

ein) =| |E? (2-34) 
€N YN XX Wy 


式 (2-34) 用 矢量 表示 如 下 : 
e(n) =y(n) -X(n)w(n) (2-35) 
代价 函数 J (n) AT EAS BRI P EREJE: 
J(n) =e(n)"e(n) = (y(n) -X(n)w(n))'(y(n) -X(n)w(n)) (2-36) 
将 乘积 项 展开 ， 经 过 简化 后 可 得 
J(n) =y"(n) -2y"(n)X(n)w(n) *w'(n)X'(n)X(n)w(n) (2-37) 
AF, XT (n) Zins X(n) MRE, y! (n) eR y n) BOSE RE, ATRARENERE, 
对 式 (2-37) 求 关 于 w(z) 的 微分 ， 令 微分 等 于 零 来 求解 权重 矢量 。 从 式 (2-37) 
可 以 推导 得 出 最 小 平方 权重 矢量 的 估计 ， 即 wrs(z) ， 用 矩阵 形式 表示 如 下 : 
Wis(n) =(X"(n)X(n)) !X'y(n) (2-38) 
上 面 的 表达 式 可 以 用 Wiener - Hopf 标准 式 表 示 [XX (2-39) ~ X 


$23 DSP 基础 33 








(2-41) ], : 
Wis(n) =(n) ^! 8(n) (2-39) 


p(n) =X"(n)X(n) (2-40) 
O(n) 2X! (n)y(n) (2-41) 


RF, b(n) dni ARG X(n) KAKI, O(n) dmn A Be X (n) 和 期 望 信 
号 矢量 y(n) 的 互相 关 矢 量 。 假 设 观察 次 数 大 于 权重 数 ， 因 为 方程 数 大 于 未 知 数 
的 个 数 ， 所 以 上 面 的 方程 有 解 。 

EEK LS 解 是 针对 样本 数据 输入 块 来 执行 的 ， 该 解 可 以 用 RLS 算法 迭代 实 
现 ， 此 时 ，LS 权重 会 对 每 组 新 样本 输入 都 更 新 。 如 果 持 续 执行 ， 则 LS 算法 可 以 
有 效 地 运行 在 无 限 大 的 数据 窗 上 ， 因 此 适合 于 稳 态 系统 。 非 平稳 条 件 应 用 的 LS 
解 可 以 包含 一 个 加 权 因 子 。 该 因子 可 以 赋予 最 新 输入 的 数据 更 重要 的 权重 ， 从 而 
有 效 地 构建 了 一 个 数据 的 移动 窗 用 来 获得 LS 解 。 引 入 遗忘 因子 B 后 ， 式 (2-36) 
中 的 LS 代价 函数 写 为 


N-1 
J(n) = 2, Bin - ine) (2-42) 


Xm, B(n-i) LAO <B(n-i) <1, iz1,2,-«-,Ns HEATH ABA 
数 遗 忘 因 子 。 

B(n-i) =v" (2-43) 
式 中 ,=1，2，…，N，A 和 为 接近 但 小 于 1 的 正常 数 。 由 于 该 值 决 定 了 将 使 用 的 
数据 窗 长 度 并 且 会 影响 自 适应 滤波 器 的 性 能 ， 因 此 尤为 重要 。(1 -入 ) 的 倒数 可 
以 度量 算法 的 记忆 长 度 。 通 常 的 规则 是 ， 系 统 记忆 长 度 越 长 ， 收 敛 速度 越 快 ， 稳 
态 误差 越 小 。 然 而 ， 系 统统 计 特 性 的 变化 速度 会 限制 窗口 长 度 。 将 遗忘 因子 应 用 
到 Wiener- Hopf 标准 方程 [ 式 (2-39) ~ 式 (2-41)] 中 ， 相 关 和 矩阵 和 互相 关 拢 
阵 可 写成 


n 


p(n) = eh EG) (2-44) 
O(n) = Yats(G)yG) (2-45) 
因此 ， 送 代表 达 式 可 写 为 ü 
b(n) = [Saves] xo (o) (2-46) 
或 者 更 简洁 地 表示 为 
b(n) 2Ad(n -1) +2(n)x"(n) (2-47) 


相似 地 ，0(n) 可 以 表示 为 
O(n) 2A0(n-1) *x(n)y(n) (2-48) 
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从 求解 Wiener - Hopf 标准 方程 得 到 LS 权重 矢量 需要 计算 相关 矩阵 的 着 ， 例 
如 式 (2-49) 所 示 的 矩阵 矢量 的 表达 式 。 


wi Xi XpXg T XXX 8 Xy XpX; ^ Yi 
w |=| | Xo) XoXo, Xs1 Xs X23 + | | XX X23 | | Yio (2-49) 
W3 X31X32X33 X31X32X33 X31X32X33] Ly13 


相关 和 矩阵 互相 关 和 矩阵 

道 矩阵 的 存在 给 实现 带 来 了 难题 ， 包 括 数值 稳定 性 和 计算 复杂 度 。 比 如 ， 如 果 
相关 算 阵 是 奇异 的 ， 则 算法 将 面临 数值 稳定 性 问题 。 同 时 ， 每 次 迭代 过 程 中 计算 矩阵 
的 逆 复 杂 度 为 N^ DER, Mi LMS 算法 复杂 度 仅 为 N 的 量 级 。 有 两 种 特殊 的 方法 来 从 
代 地 求 LS 解 ， 它 们 不 需要 直接 计算 矩阵 的 逆 ， 从 而 将 复杂 度 降 到 NP, SBT 
法 称 为 标准 RLS 算法 ,利用 和 矩阵 求 逆 引 理 来 迭代 更 新 权重 。 一 种 普遍 使 用 的 方法 是 
首先 对 输入 数据 进行 一 组 正 交 旋转 ， 即 Givens 旋转 (Givens 1958) ， 将 正方 形 数据 矩 
阵 变换 到 等 效 的 上 三 角 和 矩阵 (Gentleman 和 Kung 1981) ， 然 后 通过 回 代 来 计算 权重 。 
这 就 是 人 们 熟知 的 QR 分 解 (利用 一 种 正 交 旋 转 方法 来 实现 ， 比 如 Householder 变换 
或 者 Givens 旋转 ) ， 它 已 经 成 为 数值 稳定 性 和 和 鲁 棒 性 RLS 算法 的 基础 (ciof 1990, 
Cioffi 和 Kailath 1984, Dohler 1991, Hsieh 等 ”1993，Liu & 1990, 1992, McWhirter 
1983, McWhirter “ 1995, Rader 和 Steinhardt 1986, Walke 1997) 。 目 前 ， 有 多 种 快 
速 RLS 算法 ， 它 们 通过 控制 系统 中 的 元 余 来 将 复杂 度 减少 到 N 


2.8 总 结 


本 章 简要 地 介绍 了 DSP 的 基础 知识 及 一 些 通用 的 DSP 算法 , 包括 DCT. FFT 
和 DWT 等 变换 ， 基 本 滤波 器 结构 如 FIR 和 IIR 滤波 器 ， 以 及 LMS 和 RLS 等 自 适 
应 滤波 器 。 当 然 ， 类 似 的 信号 处 理 算法 有 很 多 ， 本 章 只 重点 介绍 了 其 中 的 一 部 
分 ， 本 书后 续 章 节 设 计 实 例 时 还 将 用 到 。 此 外 ， 本 书 专门 有 一 章 详细 介绍 用 来 构 
建 复杂 核 的 RLS 滤波 器 结构 。 
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3.1 引言 


算术 算法 的 选择 通常 是 DSP 实现 的 一 个 重要 方面 ， 它 不 仅 影响 算法 性 能 ， 
还 会 影响 系统 性 能 指标 ， 尤 其 是 面积 、 速 度 和 功 耗 。 对 于 在 处 理 器 平台 上 的 DSP 
实现 而 言 ， 算 术 算 法 的 选择 变 成 了 对 平台 的 选择 ， 通 常 是 浮 点 实现 或 定点 实现 ， 
接 下 来 是 对 定点 字 长 的 选择 。 然 而 ， 对 FPCA 平台 来 说 ， 算 术 算法 的 选择 对 性 能 
代价 的 影响 范围 更 大 ， 贯 穿 整个 设计 过 程 ; 但 公平 地 说 ，FPGA 生产 厂商 (第 5 
章 将 提 到 ) 对 架构 的 决策 将 主导 算术 算法 的 选择 。 尽 管 如 此 ， 也 值得 我 们 考虑 

DSP 实现 的 一 个 关键 前 提 是 能 否 得 到 合适 的 基本 处 理 元 件 ， 特 别 是 加 法 器 和 
乘法 器 。 然 而 ， 一 些 DSP 算法 ， 特 别 是 自 适 应 滤波 器 同时 还 要 求 专门 的 器 件 来 
计算 除法 和 二 次 方 根 。 这 些 功能 的 实现 及 数字 系统 的 选择 会 对 硬件 实现 的 质量 带 
来 重大 影响 。 例 如 ， 众 所 周知 ， 不 同 DSP 应 用 领域 ( 如 图 像 处 理 、 雷 达 和 语音 
对 位 切换 有 不 同 的 要 求 ， 表 现在 变化 次 数 和 特殊 位 的 切换 上 (Chandrakasan 和 
Brodersen 1996) 。 更 具体 一 点 ， 语 音 输入 的 符号 位 会 随 着 数据 围绕 零点 波动 而 经 
常 切换 ， 但 在 图 像 处理 中 ， 输 入 通常 是 正 值 。 此 外 ， 不 同 应 用 对 较 低 有 效 位 会 有 
不 同 的 切换 行为 (Chandrakasan 和 Brodersen 1996) 。 因 此 ， 有 必要 介绍 一 些 计 算 
机 算术 运算 基础 知识 ， 特 别 是 数值 表示 和 某 些 通用 算术 运算 ， 即 加 法 器 和 乘法 器 
实现 方法 的 选择 。 但 本 书 不 打算 触及 太 多 细节 ， 因 为 目前 FPGA 提供 了 专门 的 硬 
件 来 实现 加 法 和 乘法 ， 而 且 对 于 很 多 应 用 ， 最 少 面积 、 最 快速 度 和 最 低 功 耗 的 实 
现 都 将 基于 这 些 基本 硬件 单元 。 

尽管 加 法 器 和 乘法 器 对 DSP 系统 至 关 重 要 ， 但 本 书 将 重点 介绍 除法 和 二 次 
方 根 运算 ， 因 为 很 多 复杂 DSP 函数 都 用 到 这 两 种 运算 。 本 章 还 将 简单 比较 用 于 
实现 这 些 运 算 的 不 同方 法 。 动 态 范围 是 DSP 的 一 个 关键 问题 ， 涉 及 数据 表示 ， 
即 浮 点 和 定点 ， 本 章 将 进行 简单 介绍 ， 并 回顾 标记 方法 。 

本 章 内 容 如 下 : 3.2 节 将 介绍 一 些 计算 机 算术 运算 基础 知识 ， 包括 多 种 形式 
的 数字 表示 ， 其 中 将 提 及 几 种 高 级 表示 方法 ， 比 如 有 符号 数字 表示 (SDNR ) 、 
逻辑 数字 系统 (LNS)、 余 数 系统 (RNS) 和 坐标 旋转 数字 计算 方法 
(CORDIC); 3.3 节 将 介绍 定点 和 浮 点 表示 方法 ; 3.4 节 将 简单 介绍 加 法 器 和 乘 
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法 器 的 实现 ， 并 讨论 一 些 DSP 系统 常用 的 复杂 算术 运算 的 实现 ， 即 除法 和 二 次 
方 根 运 算 ; 最 后 将 介绍 定点 和 浮 点 的 实现 细节 等 关键 问题 ， 以 及 与 算术 运算 和 表 
示 相 关 的 其 他 问题 的 概括 。 


3.2 数字 系统 


我 们 从 小 就 学 习 使 用 十 进 制 表示 来 计数 ， 但 晶体 管 技 术 的 发 展 意味 着 二 进 制 
计数 方法 是 DSP 系统 中 更 自然 的 表示 。 本 节 将 从 传统 数字 系统 的 基本 处 理 方法 
开始 ， 解 释 带 符号 的 级 数 表示 和 “1” 的 补 码 ， 然 后 重点 介绍 “2” 的 补 码 ， 因 
为 它 是 当前 最 常用 的 表示 方法 。 本 节 还 将 简单 回顾 其 他 一 些 在 基于 FPGA 的 DSP 
系统 中 使 用 的 数字 系统 。 

3.2.1 数字 表示 
假设 NN 是 n+1 位 长 的 无 符号 数 ， 可 以 用 式 (3-1) 表示 。 
N= J x2 (3-1) 
i=0 
AP, ox; 表示 WN 的 第 i 个 二 进 制 位 ，xo Mx, 分 别 表示 最 高 有 效 位 《Most Signifi- 
cant Bit, MSB) 和 最 低 有 效 位 (Least Significant Bit, LSB). 

1. 有 符号 量 

在 有 符号 技术 系统 中 , -1 个 较 低 有 效 位 表示 数量 ， 最 高 有 效 位 x, 表示 符 
号 。 图 3-1a 用 一 个 4 位 二 进 制 字 表示 的 数字 轮 形象 地 说 明了 这 种 表示 方法 。 在 
符号 数量 标记 法 中 ， 每 个 4 位 二 进 制 字 的 量 由 3 个 较 低 有 效 位 来 决定 ， 符 号 由 最 
高 有 效 位 的 符号 位 决定 。 然 而 ， 这 种 表示 方法 存在 几 个 问题 。 首 先 ，0 有 两 种 表 
示 ， 这 是 任何 一 种 硬件 系统 都 必须 解决 的 问题 ， 尤 其 是 当 0 用 于 触发 事件 时 ， 比 
如 检查 两 个 数 是 否 相 等 时 。 其 次 ， 由 于 等 式 通常 是 逐 位 执行 ， 因 此 这 种 方式 增加 
了 硬件 复杂 度 。 最 后 ， 减 法 这 类 运算 将 更 加 复杂 ， 是 因为 如 果 不 检 查 两 个 数字 的 
字 长 并 做 相应 的 排列 ， 则 将 无 法 校 验 结果 值 的 符号 位 。 

2. “1” 的 补 码 

在 基于 “1” 的 补 码 系 统 中 ， 一 个 数 的 负 值 通过 位 翻转 来 实现 ， 即 由 原始 字 
中 每 位 的 “1” 补 码 表示 。 式 (3-2) 给 出 了 一 个 位 二 进 制 字 的 转换 方法 ， 图 
3-1b 以 一 个 4 位 二 进 制 字 为 例 说 明了 这 种 表示 方法 。 它 仍然 存在 两 个 数 表示 0 
的 问题 ， 当 用 “1” 的 补 码 来 做 减法 时 需要 对 结果 进行 纠正 (Omondi 1994) 。 

N=(2"-1)-N (3-2) 

3. “2” 的 补 码 

在 基于 “2” 的 补 码 系统 中 ， 一 个 数 的 负 值 是 在 原 码 字 逐 位 反 转 的 基础 上 加 
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a) : b) c) 


图 3-1 4 位 二 进 制 字 的 数字 轮 表 示 
a) 符号 和 量 级 b)“1” 的 补 码 c)“2” 的 补 码 


1 得 到 的 。 式 (3-3) 给 出 了 转换 方法 ,图 3-1c 以 4 位 二 进 制 码 字 为 例 说 明了 这 
种 表示 方法 。 虽 然 这 种 方法 看 起 来 不 如 前 面 两 种 方法 直观 ， 但 它 有 几 个 优势 
(D0 只 有 一 种 表示 ; @ 加 减法 可 以 简单 地 在 硬件 中 实现 ， 更 重要 的 是 减法 ， 如 果 
数字 在 有 效 表示 范围 内 ， 则 计算 中 的 溢出 可 以 忽略 。 因 此 , “2” 的 补 码 已 经 成 
为 主流 的 数字 系统 表示 方法 。 0 
N=2"-N (3-3) 

4. 有 符号 数字 值 表 示 

有 符号 数字 值 表示 (Signed Digit Number Representation, SDNR) 最 早 由 Avi- 
zienies (1961) 提出 ， 用 于 算术 运算 中 中 断 进位 传播 链 。 后 来 几 位 作者 (An- 
drews 1986, Knowles 1989) 提出 一 种 有 符号 二 进 制 数 字 表 示 (Signed Binary 
Number Representation, SBNR) 方法 ， 成功 地 应 用 到 一 些 高 速 电 路 设计 中 ， 比 如 
算术 处 理 、 数 字 滤 波 器 和 Viterbi 译 码 函数 等 。 同 时 允许 使 用 正 值 和 负 值 ， 意 味 
着 一 个 数 可 以 有 多 种 元 余 表 示 。 利 用 这 个 特点 ，Avizienis 演示 了 一 个 不 需要 进位 
传播 的 并 行 加 法 系统 。 当 然 ， 宛 余 表 示 必 须 转换 回 二 进 制 ， 可 以 采用 当时 已 有 的 
多 种 技术 来 实现 ( Aklansky 1960) 。 

SBNR 表示 促进 了 SDNR WF 二 元 集 的 发 展 ， 其 中 xe( -1，0，1) ， 严 格 
地 说 是 〈(1，0，1) ， 其 中 1 表示 - 1。 这 个 二 元 集 通常 用 2 位 来 表示 ， 即 符号 位 
xs 和 数量 位 xm ， 见 表 3-1。 一 种 更 有 意思 的 配置 是 (+, -) 方法 ， 其 中 SBNR 
数字 表示 为 (xt, x”)， 其 中 x=x* + (x -1)。 或 者 可 以 理解 为 : 4x7 =0 
时 表示 -1, x^ =1 时 表示 0; x* =0 时 表示 0，x* =1 时 表示 1。 这 种 方法 的 主 
要 优势 在 于 它 可 以 从 传统 加 法 器 模块 构建 通用 SBNR 加 法 器 ， 并 且 对 构建 高 速 乘 
法 器 非常 关键 。 尽 管 SDNR 表示 从 提高 速度 角度 看 具有 性 能 优势 ， 但 与 二 进 制 之 
闻 的 相互 转换 是 一 个 需要 考虑 的 问题 ， 并 且 需 要 专用 的 电路 (Sklansky 1960) 。 
此 外 ， 内 部 数据 的 元 余 表 示 给 一 些 简 单 运算 ， 比 如 比较 运算 带 来 问题 。 
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表 3-1 SDNR 编码 
SDNR 数字 SDNR 表达 式 











5. 其 他 表示 方法 

数字 表示 方法 还 有 很 多 ， 比 如 逻辑 数字 表示 (Logarithmic Number Represen- 
tion, LNS) ( Muller 2005 ) 、 余 数 表 示 (Residue Number Representation, RNS ) 
(Soderstrand 等 ”1986) 和 坐标 旋转 数字 计算 (Coordinate Rotation Digital Comput- 
er, CORDIC) (Volder 1959, Walther 1971 ) 。 

在 LNS F, "CE x 用 定点 数 i 表 示 ， 如 式 (3-4) 所 示 。 

i = log, Ixl (3-4) 

另外 ， 还 需要 一 个 位 来 表示 x 的 符号 ， 特 殊 的 情况 是 x =0。LNS 的 重要 优 
点 是 线性 域 的 乘法 和 除法 可 以 简单 地 用 对 数 (log) 域 的 加 法 和 减法 来 代替 。 然 
而 ， 加 法 和 减法 却 变 得 更 复杂 。 参 考 文献 (Collange 等 2006) 介绍 了 LNS FA 
库 的 发 展 ， 并 讨论 了 它 在 某 些 算术 函数 和 图 像 处 理 中 的 应 用 。 

RNS 很 适合 处 理 数值 很 大 的 整数 ， 因 此 多 用 在 计算 机 算术 系统 和 一 些 DSP 应 
用 中 (后面 会 介绍 ) ， 这 些 应 用 都 存在 对 大 数值 整数 计算 的 需求 。 在 RNS 中 , 一 个 


整数 将 被 转换 为 一 组 N 元 组 的 小 整数 ， 称 为 模 数 ， 记 为 (my, my, c, me 
整数 可 以 用 NN 元 组 (xy, Ps xj) 表示 如 下 ， 其 中 Xi 为 非 负 整数 : 
X =m, * q; +%; (3-5) 


SOP, q 是 满足 的 最 大 整数 ，x; EX BE m, 的 余数 。RNS 主要 的 优点 是 加 法 、 减 
法 和 乘法 都 不 需要 进位 ， 因 为 其 格式 进行 了 转换 。 然 而 ， 对 于 除法 、 比 较 运算 和 
符号 判断 等 其 他 的 算术 运算 ， 计 算 速 度 很 慢 ， 从 而 影响 了 RNS 的 大 规模 应 用 。 
因此 ， 这 种 表示 方法 主要 用 在 需要 很 多 乘法 和 加 法 的 DSP 应 用 上 ， 比 如 FIR 滤 
波 和 FFT 及 DCT 等 变换 (Soderstrand ~ 1986), 

CORDIC 最 早 由 Volder (1959) 提出 ， 仅 使 用 移 位 和 加 法 操作 就 可 实现 旋 
转 。 因 此 很 适合 计算 三 角 函 数 ， 比 如 正弦 和 余弦 函数 ， 另 外 还 适合 乘除 运算 ， 
Walther (1971) 将 其 应 用 到 双 曲 函数 、 对 数 、 指 数 和 二 次 方 根 运 算 上 ， 并 首次 
提出 适用 于 线性 坐标 、 圆 坐标 和 双 曲 坐标 的 通用 算法 。CORDIC 实现 降低 了 旋转 
操作 的 计算 量 (Takagi 等 1991) ， 它 已 经 用 到 一 些 DSP 应 用 中 ， 尤 其 是 矩阵 三 
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角 化 (Ercegova 和 Lang 1990) 和 RLS 自 适 应 滤波 (Ma 等 1997) 的 实现 ， 后 者 
也 需要 旋转 操作 。 

上 述 的 表示 方法 针对 特定 的 实现 ， 在 某 些 应 用 上 可 以 获得 可 观 的 性 能 增益 ， 
但 应 用 范围 受 限 。 更 重要 的 是 ,我 们 认为 ， 它们 相对 现 有 方法 所 获得 的 性 能 增益 
并 不 一 定 值得 推广 使 用 。 大 多 数 FPGA 架构 都 有 基于 传统 算术 算法 的 专用 硬件 ， 
并 且 倾 向 于 传统 基于 “2” 的 补 码 的 处 理 。 因 此 ， 本 书 的 描述 和 示例 都 限定 在 
“2” 的 补 码 。 


3. 3 定点 和 浮 点 

二 进 制 数字 系统 中 ， 一 种 广泛 使 用 来 表示 和 存储 数值 的 格式 是 定点 格式 。 定 
点 算术 运算 中 ， 整 数 x FAB sio Xnan-2» > MOM, HH XR usi, 
Xmen-29 "7775 XL BEAN AA EBB , Nils Xn-2»5 °**s x0o 表 示 数 的 分 数 部 分 。 这 


是 用 户 对 数字 系统 的 理解 ， 在 DSP 系统 中 ， 用 户 通 常 将 输入 数据 x(n) 和 输出 
数据 y(n) 用 整数 值 表 示 ， 而 系数 值 用 分 数 表示 ， 从 而 可 以 维持 中 间 计 算 过 程 中 
的 最 佳 动态 范围 。 

选择 定点 表示 方法 的 关键 问题 是 在 计算 过 程 中 充分 利用 动态 范围 。 缩 放 可 用 

应 对 最 坏 情况 ， 但 通常 会 使 动态 范围 变 小 。 通 过 调整 的 方式 来 充分 利用 动态 范 
A i A 需要 增加 额外 的 电路 来 处 理 。 这 个 问题 在 基于 
“2” 的 补 码 表示 方法 中 尤其 突出 ， 因 为 溢出 所 得 到 的 值 与 原来 的 值 符号 完全 不 
同 。 虽然 可 以 通过 饱和 电路 来 保持 最 坏 情 况 时 的 负 洲 出 或 正 溢出 ,但 其 非 线性 区 
域 对 性 能 有 影响 ， 需 要 深入 考虑 。 

上 面 提 到 的 问题 通常 会 在 高 层 建 模 阶 段 考虑 进去 ， 常 利用 MATLAB 或 者 
LabVIEW 工具 来 分 析 。 借 用 这 些 工 具 可 以 开发 浮 点 表示 的 高 层 模型 ， 然 后 转换 
成 定点 实现 ， 任 何 溢出 问题 都 在 这 时 处 理 。 处 理 方案 可 能 会 涉及 FPGA 实现 ， 因 
为 额外 的 电路 可 能 导致 时 序 问题 。 看 上 去 好 像 麻烦 比 好 处 多 ， 但 定点 实现 对 FP- 
GA 实现 意义 重大 〈 对 某 些 DSP 微 处 理 器 实现 也 是 一 样 ) ， 因 为 字 长 能 直接 转换 
为 芯片 面积 。 另 外 ， 现 在 有 很 多 优化 算法 ， 使 得 定点 表示 很 受 欢 迎 ; 本 章 后 面 将 
继续 讨论 。 

3.3.1 浮 点 表示 

浮 点 表示 为 实数 提供 了 一 种 更 丰富 的 表示 方法 ， 越 来 越 多 地 应 用 到 科学 计算 

应 用 中 ， 同 时 也 逐渐 推广 到 DSP 应 用 上 。 浮 点 表示 的 目的 是 用 符号 、 指 数 和 尾 


数 或 分 数 来 表示 一 个 实数 ， 如 图 3-2 所 示 。 最 常用 的 浮 点 格式 是 IEEE 标准 的 二 
进 制 浮 点 运算 (IEEE 754) ， 定 义 了 4 种 格式 : 
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符号 ”指数 分 数 
[1 [10001001 
31 30(8 位 ) 22 (23 位 ) 0 位 指针 
偏 移 量 = 十 127 
3) 
符号 ”指数 分 数 
63 62 (11 位 ) 5251 (52 位 ) 0 位 指针 
偏 移 量 = +1023 
b) 
图 3-2 浮 点 表示 


a) 单 精度 b) 双 精 度 


1) 单 精度 (32 位 ) ; 

2) 双 精 度 (64 fiz) ; 

3) 扩展 单 精度 ; 

4) 扩展 双 精 度 。 

单 精度 32 位 表示 方法 中 ， 用 1 位 表示 符号 (S), R8 位 表示 指数 (Exp)， 
剩 下 23 位 表示 尾数 (M), ， 如 图 3-2a 所 示 。 数 值 N 可 以 用 2997 x M 来 表示 ， 
由 于 指数 是 无 符号 的 ， 因 此 单 精度 扩展 表示 的 范围 接近 +10””。 双 精度 是 简单 
地 扩展 到 64 位 ， 表 示 的 范围 为 上 10 和。 

下 面 的 例子 说 明了 如 何 将 一 个 实数 - 1082. 5674 转换 为 IEEE 754 表示 的 浮 
点 数 。 

首先 ， 因 为 是 负数 ， 可 以 确定 S=1; 

将 数 (1082) 用 连 除法 转换 到 二 进 制 (Omondi 1994) ， 得 到 10000111010; 

小 数 部 分 (0.65625) 用 同样 的 方法 转换 为 二 进 制 ， 得 到 10101; 

两 部 分 合 起 来 得 到 10000111010. 10101; 

基数 小 数 点 左 移 至 只 剩 下 一 个 整数 位 ， 得 到 1. 000011101010101 x2"; 

补充 0 得 到 23 位 的 尾数 ， 即 10000111010101010000000 ; 

指数 是 10，32 位 IEEE 754 格式 的 偏 置 是 127， 得 到 137， 用 二 进 制 表示 
为 10001001 , 

将 这 些 数组 合 在 一 起 得 到 如 图 3-2a 所 示 单 精度 表示 的 二 进 制 形式 。 采 用 同 
样 的 方法 可 得 到 图 3-2b 所 示 的 双 精 度 表 示 ， 主 要 的 差别 在 于 指数 上 的 偏 置 及 尾 
数 后 面 填充 的 0 的 个 数 。 


3.4 算术 运算 


本 节 讨 论 各 种 算术 运算 函数 的 实现 ， 包 括 加 法 、 乘 法 、 除 法 和 二 次 方 根 。 本 
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书 主要 讨论 FPGA 的 实现 ， 包 含 板 级 加 法 器 和 乘法 器 ， 因 此 我 们 重点 介绍 这 些 构 
件 的 使 用 ， 尤 其 是 定点 实现 。3. 4. 1 节 将 简单 描述 浮 点 加 法 器 。 


3.4.1 加 法 器 和 减法 器 


加 法 本 身 就 是 一 种 关键 运算 ， 同 时 也 是 乘法 器 的 基本 组 成 单元 ， 因 为 乘法 实 
际 上 是 一 组 移 位 加 法 。 表 3-2 总 结 了 基本 的 加 法 函数 ， 图 3-3a 所 示 为 其 实现 过 
程 。 由 表 3-2 中 1 位 加 法 器 的 真 值 表 可 以 得 到 式 (3-6) MH (3-7) ， 以 及 
图 3-3a 所 示 的 逻辑 门 实现 结构 。 
S; =A;@B;@C; -1 (3-6) 
C; =A; + B; tA; C; 4 +B; * C;_, (3-7) 
3-2 1 位 加 法 器 真 值 表 














真 值 表 还 可 以 用 另 一 种 方式 来 解释 : 当 A; =B; If, C; =B; HS; 2 C;.,5 4 
A; -B, Wt, C, - C, HS = Ci_i。 其 中 隐 含 了 一 种 用 来 生成 进位 的 乘法 器 ， 通 过 
巧妙 地 利用 4; € B; 〈 计 算 和 值 S: 时 的 中 间 结 果 ) ， 只 需要 增加 很 小 的 开销 。 这 
是 FPCA 生产 厂商 喜欢 用 的 结构 ， 即 如 图 3-3b 所 示 的 加 法 单元 部 分 。 通 过 提供 
专用 的 异 或 (Exclusive OR, EXOR) 和 多 路 选择 (Multiplexer, MUX) 逻辑 ， 可 
以 用 LUT 构建 加 法 单元 ， 并 额外 生成 EXOR 函数 。 

因为 节省 几 百 皮 秒 的 运算 时 间 对 性 能 有 很 大 的 影响 ， 所 以 在 计算 机 算术 运算 
领域 有 大 量 关 于 加 法 器 结构 的 研究 成 果 。 人 们 开发 了 多 种 加 法 器 结构 ， 比 如 逐 位 
进位 加 法 器 、 超 前 进位 加 法 器 、 进 位 保留 加 法 器 、 跳 跃进 位 加 法 器 、 条 件 求 和 
等 ， 这 里 就 不 一 一 列举 了 (Omondi 1994) 。 图 3-4 所 示 为 一 种 逐 位 进位 加 法 器 ， 
它 是 一 种 4 位 加 法 器 的 实现 ， 每 一 个 单元 的 逻辑 表示 都 采用 式 (3-6) MA 
(3-7); 
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Cia 





b) 


图 3-3 1 位 加 法 器 结构 
a) 传统 的 b) 基于 多 路 复 用 的 


Cy-1 Sn 
图 3-4 NN 位 加 法 器 结构 


不 同 加 法 器 结构 的 变 体 很 大 程度 上 要 权衡 门 电路 的 复杂 度 和 系统 规则 性 ， 很 
多 技术 都 因为 结构 不 够 规则 而 终止 。20 世纪 70 年 代 到 80 年 代 中 ， 大 量 研究 的 
目标 是 开发 高 速 的 结构 ， 其 中 晶体 管 切 换 速 度 是 主要 特征 。 然 而 ， 如 本 书 原 书 序 
中 所 分 析 的 ， 互 连 才 是 最 关键 的 ， 它 在 一 定 程度 上 前 弱 了 采用 先进 加 法 器 结构 所 
带 来 的 影响 。 另 一 个 在 FPGA 中 需要 考虑 的 重要 因素 是 加 法 器 字 长 根据 应 用 的 需 
求 进行 缩放 的 能 力 ， 这 种 情况 下 ， 线 性 缩放 会 带 来 性 能 下 降 。 

因此 ， 并 行 加 法 器 广泛 应 用 在 FPGA 中 ,并且 很 多 FPGA 结构 会 为 其 提供 专 
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门 的 资源 〈 详 见 第 5 章 ) 。 
3.4.2 乘法 器 


乘法 可 简单 地 通过 一 系列 加 法 来 实现 。 下 面 的 示例 说 明了 5 RA 11 在 二 进 
制 计数 方法 中 的 计算 过 程 。 
5 =00101 被 乘 数 
11 =01011 乘 数 
00101 
00101 
00000 
00101 
00000 
55 =000110111 
在 计算 机 算术 运算 中 的 常用 表示 方法 会 将 数据 在 垂直 方向 对 齐 ， 并 且 向 右 移 
而 不 是 左 移 ， 如 下 面 例子 所 示 。 从 实例 中 可 以 看 到 ， 并 没有 在 最 后 才 将 每 次 相 乘 
的 结果 一 起 相 加 ， 而 是 将 每 次 相 乘 的 结果 都 加 到 一 个 不 停 更 新 的 积 上 ， 成 为 部 分 
积 。 这 意味 着 ， 计 算 过 程 中 的 每 一 步 都 等 同 于 用 与 函数 或 门 电路 来 实现 每 次 的 乘 
法 ， 用 加 法 器 计算 部 分 积 。 
5 =00101 被 乘 数 
11 =01011 乘 数 
00000 最 初 结果 
00101 加 第 1 个 相 乘 结 果 
00101 
000101 右 移 
00101 加 第 2 MARAR 
001111 
0001111 右 移 
00000 加 第 3 个 相 乘 结果 


0001111 
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00001111 AF 
00101 加 第 4 个 相 乘 结果 
00110111 
00001111 右 移 
00000 加 第 5 个 相 乘 结果 
55 =000110111 
计算 过 程 中 的 重复 特点 意味 着 每 个 阶段 的 顺序 处 理 单元 ， 包 括 一 组 与 门 来 生 
成 乘积 项 ， 一 个 加 法 器 来 生成 逐 阶 段 的 加 法 。 随 着 芯片 技术 的 发 展 ， 并 行 乘法 器 
已 经 成 为 主流 ， 这 就 是 说 可 以 使 用 多 个 加 法 器 电路 。 然 而 ， 如 果 使 用 图 3-4 所 示 
的 加 法 器 单元 ， 则 会 导致 乘法 器 电路 非常 慢 。 应 用 快速 加 法 器 可 以 提高 速度 ， 但 
会 增加 硬件 成 本 。 因 此 ， 需 要 用 图 3-5 所 示 的 无 进位 加 法 器 结构 实现 如 图 3-6 所 
示 的 无 进位 阵列 乘法 器 。 无 进位 加 法 器 计算 速度 和 独立 单元 一 样 快 ， 只 有 3 个 门 
延迟 ， 参 见 图 3-3。 这 种 结构 可 以 快速 得 到 最 终 的 和 ， 以 及 进位 ; 然后 用 一 个 称 
为 CPA 的 快速 加 法 器 来 得 到 最 终 的 和 。 





Ani Bn-1Cn-i A, Bj Ci Ao Bo Co 
Ch- Sn-l Cc’, Sy Co So 
图 3-5 无 进位 加 法 器 图 3-6 无 进位 阵列 乘法 器 


每 个 加 法 阶段 的 速度 都 降 到 2 个 或 3 个 门 延迟 ， 乘 法 器 的 速度 则 由 总 的 阶段 
数 决 定 。 设 字 长 为 m， 阶 段 数量 则 为 m -2. Wallace 树 状 乘法 器 克服 了 这 种 局 
限 ， 使 得 加 法 过 程 可 以 并 行 执行 ， 如 图 3-7 所 示 。 无 进位 加 法 器 将 3 个 字 压 缩 到 
两 个 字 ， 意 味 着 如 果 输 入 字 长 为 >， 则 在 每 个 阶段 后 , 个 字 变 成 3k+1 个 ,其 
HO<k<2, Alt, RRAN log, sn 个 阶段 后 得 到 最 终 的 和 与 进位 值 ， 而 无 进位 
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阵列 乘法 器 需要 ” -1 个 阶段 。 im 
3.4.3 除法 


除法 可 能 被 认为 是 乘法 的 逆 过 程 ， 但 有 几 
点 区 别 使 得 其 实现 要 复杂 得 多 。 完 成 除法 有 很 
多 种 方法 ， 比 如 递 推 除法 和 函数 迭代 除法 。 从 
20 世纪 50 年 代 开 始 ， 除 法 和 二 次 方 根 的 算法 就 
已 经 成 为 计算 机 算术 运算 领域 的 重要 研究 课题 。 
这 些 算法 可 以 分 成 两 类 ， 即 逐 数 字 计 算 的 方法 
和 逼近 方法 。 逐 数字 计算 的 方法 也 称 为 直接 方 
法 ， 与 人 们 用 纸 笔 计算 商 和 二 次 方 根 的 方法 相 
似 。 其 结果 是 一 个 数字 一 个 数字 计算 ， 最 高 有 
效 数 字 先 计算 。 逼 近 方 法 包括 牛顿 - 拉 普 和 森 算 
法 和 泰勒 序列 展开 算法 ， 需 要 不 停 地 更 新 近似 数 使 其 更 加 精确 。 

1. 递 推 除法 

数字 递 推 算法 是 广泛 使 用 的 减 去 法 ， 在 每 次 迭代 中 计算 一 个 数字 上 的 商 。 与 
手工 计算 方法 相似 的 是 ， 它 们 都 按照 从 最 高 有 效 位 到 最 低 有 效 位 的 顺序 计算 。 中 
间 余 数 放 入 到 被 除数 中 ， 在 每 次 迭代 中 ， 选 择 商 数 中 与 中 间 余 数 对 应 的 数字 。 将 
商 数 中 的 数字 与 除数 相 乘 ， 并 将 其 从 中 间 余 数 中 减 去 。 如 果 相 减 结果 为 负 ， 则 递 
推 除法 器 将 中 间 余 数 恢复 到 前 一 个 值 ， 即 相 减 ( 比较) 的 结果 决定 算法 下 一 次 
的 除法 迭代 ， 此 时 需要 从 数字 集中 选 出 商 数位 。 因 此 ， 商 数位 的 选择 要 在 每 次 迭 
代 中 通过 试 错 的 方法 完成 。 这 一 点 和 乘法 不 同 ， 乘 法 的 中 间 积 可 以 并 行 产生 ， 在 
最 后 一 起 求 和 。 上 述 问题 使 得 除法 的 实现 比 乘法 和 加 法 更 复杂 。 

这 种 方法 中 ， 两 个 位 的 数 相 除 可 能 最 多 需要 2n +1 次 加 法 。 采 用 无 恢复 递 
推算 法 可 以 减少 加 法 次 数 ， 中 间 余 数 的 数字 可 以 为 正 数 或 者 负数 ， 使 得 加 法 次 数 
减 为 mn。 最 常用 的 递 推 除法 是 SRT 算法 ， 由 三 个 研究 者 Sweeney, Roberston 和 
Tocher 分 别 独 立 提 出 (Robertson 1958, Tocher 1958) 。 

虽然 递 推算 法 可 以 通过 简单 的 迭代 实现 ， 并 且 设 计 也 不 复杂 ,但 延迟 较 大 ， 
并 线性 地 收敛 到 商 。 每 次 迭代 过 程 中 退出 计算 的 位 数 依赖 于 所 使 用 的 算术 运算 的 
基数 。 较 大 的 基数 可 以 减少 迭代 次 数 ， 但 会 增加 每 次 迭代 所 需 的 时 间 。 这 是 因为 
选择 商 数位 的 复杂 程度 随 基数 增加 而 呈 指 数 增长 ， 通 常 需要 用 LUT。 考 虑 基数 和 
复杂 度 之 间 取 折 中 ， 基 数 常 取 2 或 4。 

2. 函数 迭代 除法 

前 一 节 提 到 的 数字 递 推算 法 在 每 次 迭代 中 都 有 固定 数量 的 位 退出 运算 ,算法 








图 3-7 Wallace 树 状 乘法 器 
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只 使 用 移 位 和 加 法 操作 。 与 之 不 同 的 是 ， 函 数 迭 代 算法 采用 乘法 作为 其 基本 操 
作 ， 并 且 每 次 迭代 过 程 得 到 的 正确 位 的 数量 至 少 是 数字 递 推算 法 的 2 倍 (Flynn 
1970, Ito “ 1995, Obermann 和 Flynn 1997, Oklobdzija 和 Ercegovac 1982), FLW 
每 次 迭代 过 程 有 3 次 乘法 ， 这 是 一 个 重要 的 因素 。 然 而 ， 它 具有 二 次 收敛 的 优 
点 ， 如 图 3-8 所 示 ， 只 需 6 次 迭代 就 可 得 到 53 位 的 商 。 





图 3-8 二 次 收敛 


3.4.4 二 次 方 根 


计算 二 次 方 根 的 方法 与 除法 相似 ， 它 们 大 致 可 分 为 两 类 ， 数 字 递 推 方法 和 基 
于 区 近 技术 的 方法 。 下 面 将 简单 介绍 这 两 类 算法 。 

1. 数字 递 推 二 次 方 根 

数字 递 推算 法 既 可 以 是 恢复 技术 也 可 以 是 无 恢复 技术 ， 两 种 算法 都 从 最 高 有 
效 位 开始 执行 。 算 法 是 一 种 减 去 法 ， 每 次 迭代 结束 后 ， 如 果 出 现 负 值 ， 则 将 结果 
位 置 为 0， 然 后 恢复 原来 的 余数 作为 新 的 余数 。 如 果 数 字 为 正 值 ， 则 结果 位 置 1， 
并 使 用 新 的 余数 。 无 恢复 算法 可 以 保留 负 值 ， 在 下 一 次 迭代 中 会 做 一 次 加 法 操作 
补偿 回来 。 总 体 上 来 说 ， 二 次 方 根 和 除法 算法 非常 相似 ， 正 因为 如 此 ， 人 们 设计 
了 很 多 脉动 阵列 的 实现 方法 可 同时 用 于 这 两 种 算术 运算 ( Ercegovac 和 Lan 1991, 
Heron 和 Woods 1999) 。 

由 于 依赖 于 迭代 次 数 及 每 行 传递 的 进位 ， 因 此 前 面 提 到 的 算法 性 能 上 都 有 局 
限 性 。 每 个 阶段 都 需要 计算 全 部 的 值 ， 才 能 正确 地 比较 并 做 出 决策 。SRT 算法 是 
一 类 无 恢复 的 逐 数 字 运 算 算 法 ， 其 中 的 数字 既 可 以 是 正 值 也 可 以 是 负 的 非 零 值 。 
该 算法 需要 利用 元 余数 方案 ( Avizienis 1961) ， 从 而 可 以 允许 数字 的 值 取 0，-1 
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或 1。SRT 最 重要 的 特点 是 每 次 迭代 中 不 需要 完全 精确 的 比较 ， 因 此 性 能 更 好 。 
假设 要 计算 一 个 数 尺 的 二 次 方 根 ，5; 表示 第 i 次 迭代 后 所 得 到 的 中 间 结 果 。 
第 i 步 缩放 的 余数 记 为 
Z, =2'(R-S?) (3-8) 
RH, /4SR>1, 1/2S8 <1, MARTE BT A DAES RAR RIAL ( Mc- 
Quillan 等 1993) 。 
Z, =2Z._, —3,(28,_, +3,27*) i=2,3,4:-- (3-9) 
式 中 ，s; 表示 第 i-1 次 迭代 中 的 根 数字 。 
— 通常， 初始 值 Z0 设 为 R， 而 平方 根 初始 估计 值 S, 设 为 0.5 ( 受 R 的 初始 范 
围 所 限 ) 。 
虽然 设计 了 大 基数 的 二 次 方 根 算法 ( Ciminiera 和 Montuschi 1990, Cortadella 
和 Lang 1994, Lang 和 Montuschi 1992) ,但 对 于 很 多 采用 大 于 2 的 基数 的 算法 来 
说 ， 需 要 通过 LUT 来 获得 二 次 方 根 的 初始 估计 。 后 面 的 章节 会 涉及 。 
2. 基于 函数 迭代 的 二 次 方 根 算法 
与 3.4.3 节 的 逼近 除法 相似 ， 二 次 方 根 计算 也 可 以 利用 函数 迭代 来 完成 ， 增 
加 法 和 相 乘 法 都 可 以 。 如 果 是 增加 法 ， 则 每 次 迭代 都 基于 加 法 ， 并 且 每 次 迭代 中 
退出 计算 的 位 数 都 相同 。 换 句 话 说， 这 类 方法 线性 地 通 近 最 终 解 。CORDIC 算法 
可 归 到 此 类 ， 它 常用 于 实现 矩阵 对 角 化 过 程 中 的 Givens 旋转 (Hamill 等 
2000) 。 相 乘法 将 每 次 迭代 结果 的 精度 提高 了 一 倍 ， 即 它们 二 次 收敛 到 结果 ， 因 
此 是 很 有 意义 的 可 选 方案 。 然 而 ， 缺 点 是 由 于 每 次 迭代 中 的 乘法 而 增加 了 计算 复 
杂 度 。 
和 除法 算法 相似 ， 二 次 方 根 也 可 以 用 牛顿 - 拉 普 森 或 序列 和 逼近 算法 来 估计 。 
采用 牛顿 - 拉 普 森 方 法 的 迭代 算法 可 以 记 为 
(x;) 
Mast co Fu 
为 此 ， 我 们 需要 选择 一 种 合适 的 f(x)， 其 根 在 解 附近 。 一 种 可 能 的 函数 是 
fx) =x? -0， 由 此 可 得 到 式 (3-11) 所 表示 的 和 迭代 式 。 
Kiet Ses (3-11) 
X (3-11) 的 缺点 是 要 做 除法 。 另 一 种 替代 方法 是 求 二 次 方 根 的 个 数 ， 即 
L2, HERE, UH (x) = 128 -b 可 得 到 式 (3-12) 所 表示 的 迭代 算法 。 





(3-10) 


Xia mA ~ ba?) (3-12) 
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通过 式 (3-12) 求解 之 后 ， 乘 以 原始 值 X 即 可 得 到 二 次 方 根 ， 即 /VX xX =VX。 

另 一 种 计算 二 次 方 根 函数 的 方法 是 使 用 序列 通 近 ( Soderquist 和 Leeser 
1995), ， 即 Goldschmidt 算法 ， 其 表达 式 和 除法 的 表达 式 相 近 (Even 等 2003), 

算法 的 目的 是 计算 连续 迭代 后 的 结果 ， 使 得 一 个 值 和 逼近 1 ， 而 另 一 个 值 逼 近 
最 终结 果 。 假 设 值 a, 为 了 计算 其 二 次 方 根 ， 通 过 式 (3-13) MA (3-14) 
BR. i 


Keay LXI (3-13) 
Yis1 7X; XT: (3-14) 

令 初 始 值 xo =yo =a, r 值 由 式 (3-15) 计算 。 
Pe (3-15) 


x,—1 上 且 因此 yi 一 Va。 换 名 话说， 经 过 不 断 和 迭代 ，x ZAE, m y ESO 
近 Va。 

与 其 他 逼近 的 示例 一 样 ， 算 法 充分 利用 了 初始 估计 值 1/Va 对 初始 值 to 和 yo 
预 分 频 。 

上 面 讨论 的 除法 和 二 次 方 根 允 近 算 法 的 示例 中 ， 都 可 以 通过 LUT 得 到 期 户 
解 的 初始 值 ， 从 而 大 幅 提 高 性 能 。 我 们 将 在 下 一 节 讨 论 。 

3. MITA 

利用 LUT 得 到 的 初始 逼近 值 可 以 显著 减少 逼近 算法 的 迭代 次 数 。 比 如 ， 产 
生 除 数 刀 的 倒数 的 逼近 值 Ro 最 简单 的 方式 是 直接 从 LUT 中 读 取 1/D 的 逼近 值 。 
n 位 的 输入 值 D 的 前 m 位 用 来 对 p 位 的 表 进 行 寻 址 ， 访 表 存 有 倒数 的 允 近 值 。 确 
定 表 中 所 存 的 值 需要 考虑 将 D. 从 nn 位 截 短 为 m 位 时 所 产生 的 最 大 和 最 小 误差 。 

LUT 的 读 取 时 间 比 较 小 ， 因 此 它 可 以 快速 得 到 解 的 部 分 位 。 然 而 ， 随 着 用 来 
对 查找 表 寻 址 输入 值 的 增 大 ， 查 找 表 的 规模 呈 指 数 增长 。 对 于 m 位 寻 址 且 输 出 
为 p 位 的 表 ， 它 将 有 2m 条 p 位 的 表 项 。 因 此 ，LUT 的 规模 会 迅速 增 大 ， 从 而 增 
加 读 取 时 间 。 

通过 合理 组 合 p 和 m， 可 以 用 尽 可 能 小 的 表 来 获得 所 需 的 逼近 精度 。 定 义 p 
与 m 的 差 值 作为 保护 位 数 g， 则 总 误差 可 以 表示 为 (Sarma 和 Matula 1993) 


=2""| i | (3-16) 


2&g+1 

表 3-3 举例 说 明了 不 同 g 和 普 值 时 的 逼近 精度 。 这 些 结果 有 助 于 判断 增加 
少量 保护 位 能 否 额 外 提供 足够 的 精度 ， 同 时 需要 权衡 从 m ~ m +1 每 增加 1 位 使 
表 的 规模 增加 一 倍 所 付出 的 代价 。 





E 


total 
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表 3-3 BERETS! 

















cna 最 小 精度 
n m «0. 415 位 
2 m +0. 678 位 
Ze m +0. 830 位 
^ m 40. 912 位 
另 一 种 简单 的 逼近 技术 是 ROM ye 
插值 方法 。 该 方法 不 是 简单 地 将 寄 Dii 


Feat FE ARE SI m 位 ， 而 是 将 第 
一 个 不 可 见 的 位 ， 即 第 (ml) 位 
置 为 1， 其 余 所 有 较 低 有 效 位 全 部 置 
为 0 (Fowler 和 Smith 1989) , 3x f£ 
做 可 以 平均 误差 。 然 后 在 超出 表 中 
输出 位 的 第 1 位 上 加 1， 再 将 得 到 的 
值 四 舍 五 入 到 表 中 条 目的 最 低 有 效 
位 。 这 种 技术 的 优点 是 简单 ， 但 是 
它 不 适合 较 大 的 初始 逼近 值 ， 因 为 
它 不 会 减 小 表 的 规模 。 

人 们 开发 了 很 多 压缩 表 规 模 的 
技术 ， 比 如 二 分 表 ， 它 利用 两 个 或 
多 个 LUT， 然 后 将 两 个 结果 相 加 来 
得 到 逼近 值 。 为 了 利用 二 分 表 来 求 
倒数 的 通 近 值 ， 输 入 操作 数 被 分 成 
三 部 分 ， 如 图 3-9 所 示 。 






表 1 
ao(do, di) 


Po 位 


#2 
ay (do, dh) 





Ry 


图 3-9 -ABARRE (Schulte 等 1997) 


HY (nom) 位 给 出 了 在 第 一 个 LUT 的 位 置 ， 用 系数 ao RA, A po 个 位 。 
do Ald, 部 分 共有 (no +n.) 位 ,给 出 了 在 第 二 个 LUT 中 的 位 置 ， 用 系数 a 表 
示 ， 有 pi 个 位 。 两 个 表 的 输出 结果 相 加 得 到 用 二 项 泰勒 级 数 展开 式 副 近 的 倒数 
Ro。 这 样 做 的 目的 是 利用 前 (no + n). 个 最 高 有 效 位 给 出 第 一 个 表 中 的 位 置 ， 
该 表 保 存 与 d, 范围 内 的 中 值 相 加 之 后 得 到 的 系数 。 第 二 个 系数 的 计算 是 将 do 和 
d, 部 分 与 di 范围 内 的 中 值 相 加 得 到 。 这 种 技术 构造 了 一 种 平均 方法 ， 因 此 减 小 
了 截断 误差 。 倒 数 逼 近 的 系数 通过 式 (3-17) 计算 。 


ao(do,di) =f( dy +d, +82) = 


1 
dy +d, +8, DH) 
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à, -d, 
(dy +8, +5,)? 
AF, ô 和 6, 是 常数 ， 分 别 等 于 wd ， 的 最 大 值 和 最 小 值 之 间 的 值 。 

上 述 方法 的 好 处 是 用 两 个 小 的 LUT 比 一 个 大 LUT 占用 空间 更 小 ， 却 可 获得 
相同 的 精度 ， 即 使 把 加 法 考虑 进去 也 是 一 样 。 人 们 开发 了 简化 二 分 逼近 法 的 技 
术 ， 其 中 一 种 是 在 两 个 表 中 都 存储 元 余 二 进 制 倒数 值 的 正 值 和 负 值 部 分 来 避免 加 
法 (Sarma 和 Matula 1995)。 这 些 值 结合 少量 编码 的 方式 将 一 些 低位 做 四 舍 五 
人 和， 从 而 达到 最 低 有 效 位 所 要 求 的 精度 。 这 种 编码 方式 只 需 很 少 的 逻辑 运算 就 可 
以 将 元 余 二 进 制 值 转换 为 符合 Booth 编码 的 乘法 器 要 求 的 操作 数 ， 也 就 是 说 ， 它 
们 被 转换 为 Booth 编码 的 操作 数 。 


ag(dg,d,) =f' (dọ +d; +8,) (d, =8,) = (3-18) 


3.5 定点 和 浮 点 的 比较 


如 果 我 们 坚持 “更 精确 总 是 最 好 的 "， 那 么 毫 无 疑问 应 该 采用 浮 点 方法 来 表 
示 数 字 。 然 而 ， 浮 点 表示 的 芯片 面积 开销 是 FPGA 实现 中 难以 承受 的 ， 对 我 们 前 
面 提 到 的 二 些 DSP 应 用 ， 浮 点 表示 所 占 的 芯片 面积 开销 超过 定点 表示 的 10 fi 
(Lightbody 等 ”2007)。 下 面 我 们 以 图 3-10 所 示 的 浮 点 加 法 器 (Pillai 等 2001) 
为 例 进行 分 析 ， 它 是 一 种 常用 的 加 法 器 实现 方法 。 首 先 ， 可 以 看 到 有 好 几 个 加 法 
器 /减法 器 及 桶 形 移 位 器 和 其 他 控制 逻辑 。 这 个 额外 的 逻辑 被 用 来 完成 加 法 器 实 
现 中 的 多 个 归 一 化 步骤 。 表 3-4 列 出 了 所 要 求 的 多 种 功能 ， 包 括 电 路 A、 电路 B 
和 电路 C 的 旁 路 (图 3-10 中 虚线 所 示 部 分 )。 表 3-4 中 简单 解释 了 两 个 操作 数 
的 指数 值 e Ale, 与 主 位 宽 p 在 不 同 条 件 下 所 需 的 电路 。 需 要 注意 的 是 ， 这 里 还 
没 考虑 特殊 情况 ， 比 如 0 和 操作 数 加 减 运算 及 操作 数 与 无 穷 数 加 减 的 情况 ， 因 为 
我 们 只 是 想 用 这 个 示例 来 说 明 复杂 度 ， 以 及 分 析 为 什么 浮 点 硬件 的 开销 远大 于 定 
点 硬件 的 开销 。 
表 3-4 指数 表示 的 浮 点 加 法 器 运算 (Pillai 2001) 
指数 标准 


l el -ez | >p 








l ej -e| <p WX 








le, -e 1 Sp 加 


针对 浮 点 运算 的 芯片 面积 比较 复杂 ， 因 为 乘法 器 和 加 法 器 面积 之 间 的 关系 发 
生 了 变化 。 在 定点 运算 中 ， 乘 法 器 通常 认为 比 加 法 器 的 面积 大 N di, HN 
示 字 长 。 然 而 ， 在 浮 点 运算 中 ， 浮 点 加 法 器 所 占 面积 和 浮 点 乘法 器 所 占 面 积 相 
34, 破坏 了 算法 设计 的 初衷 一 一 多 用 加 法 而 减少 乘法 的 数量 。 表 3-5 从 Lightbody 
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指数 有 效 数字 


数据 选择 器 /前 对 
齐 0/1 位 的 右 移 位 器 





r------ 


结果 整合 /标记 


图 3-10 三 路 数据 通道 的 浮 点 加 法 器 模块 图 


等 (2007) 摘 取 了 一 些 面积 与 速度 的 数据 ， 与 Xilinx Virtex 4 FPGA 上 实现 的 浮 
点 加 法 和 乘法 有 关 。 同 时 也 列举 了 浮 点 除法 ， 即 与 倒数 函数 有 关 的 数据 。 这 些 值 
基于 东北 大 学 (North Eastern University) 的 可 变 精 度 浮 点 模块 。 

表 3-5 Xilinx Virtex 4 FPGA 上 实现 的 多 种 浮 点 运算 的 面积 和 速度 数据 





决策 过 程 〈 硬 件 选 型 ) 比较 复杂 ， 不 仅仅 是 简单 的 面积 和 速度 的 比较 ， 而 
应 该 基于 实际 应 用 要 求 来 判断 。 比 如 ,很 多 应 用 都 有 不 同 的 数据 字 长 ， 最 终 的 精 
度 也 不 同 ， 见 表 3-6。 这 些 应 用 可 能 要 求 不 同 的 输入 字 长 ， 并 且 随 着 有 限 的 内 部 
字 长 变化 ， 它 们 对 误差 的 敏感 度 也 不 同 。 显 然 ， 较 小 的 输入 字 长 将 有 较 小 的 内 部 
精度 要 求 ， 但 对 应 用 的 洞察 在 决定 内 部 字 长 需求 时 也 起 了 很 大 的 作用 。 人 的 眼睛 
对 有 限 字 长 所 表示 的 图 像 容忍 度 较 高 ， 尤 其 是 当 它们 引起 高 频 部 分 的 失真 时 ; 然 
而 ， 耳 人 条 不 能 容忍 任何 频率 的 失真 和 噪声 ， 尤 其 是 高 频 部 分 。 因 此 ， 在 一 些 图 像 
处 理应 用 中 可 以 采用 简单 的 截 短 方法 ， 在 音频 应 用 中 却 很 少 使 用 截 短 方法 。 
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3-6 典型 字 长 
应 用 字 长 
控制 系统 4~10 
语音 8 ~13 
声音 16 ~24 
视频 8-10 


33-7 列举 了 一 些 定 点 表示 的 动态 范围 估计 。 很 明显 ， 很 多 DSP 应 用 可 以 
用 有 限 的 字 长 ， 比 如 12 ~ 16 位 就 能 达到 可 接受 的 信 噪 比 (Signal to Noise Ratio, 
SNR) ， 具 体 字 长 依赖 于 所 执行 的 内 部 运算 稍 有 不 同 。 由 于 FPCA 中 定点 表示 的 
性 能 增益 大 于 浮 点 表示 ， 因 此 定点 实现 已 经 逐渐 成 为 主流 ， 但 两 者 之 间 的 取舍 还 
依赖 于 应 用 输入 字 长 和 输出 字 长 、 所 要 求 的 SNR、 内 部 计算 复杂 度 及 所 执行 的 
运算 特点 ， 即 是 否 要 进行 类 似 和 矩阵 求 逆 或 迭代 计算 等 特殊 运算 。 

人 们 做 了 大 量 的 工作 来 研究 以 最 少 的 数字 精度 来 满足 性 能 要 求 。Canstantin- 
ides ÆA (Constantinides 等 ”2004) 从 对 设计 质量 的 影响 来 考虑 ， 寻 求 内 部 字 长 
的 精确 位 逼近 。Fang 等 人 (Fang 2002) 提出 一 种 浮 点 设计 流程 ， 从 算法 生 
成 浮 点 硬件 ， 中 间 进 行 位 宽 优化 ， 并 且 考 虑 硬件 成 本 和 功 耗 等 问题 。 通 常 ， 设 计 
者 会 利用 一 些 工 具 中 的 定点 库 函 数 手动 完成 这 个 过 程 ， 前 面 提 到 的 MATLAB@ 和 
LabVIEW 都 提供 了 相应 的 库 函 数 。 

表 3-7 固定 字 节 动态 范围 
2 





本 章 简要 介绍 了 计算 机 算术 运算 的 基础 知识 ， 讨 论 了 实现 基本 算术 运算 函数 
所 需 的 硬件 ， 并 介绍 了 一 些 复 杂 函 数 ， 如 除法 和 二 次 方 根 运算 。 另 外 ， 本 章 概 述 
了 算术 运算 表示 的 关键 因素 ， 从 硬件 实现 的 角度 讨论 了 定点 和 浮 点 选择 需要 考虑 
的 问题 。 尽 管 目前 FPGA 支持 浮 点 运算 ， 但 我 们 认为 目前 的 FPGA 技术 非常 适合 
定点 实现 ， 浮 点 运算 还 不 太 成 熟 。 
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4.1 引言 


DSP 实现 的 技术 和 硅 工 艺 的 显著 发 展 密切 相关 。 正 如 本 书 序言 中 所 强调 的 ， 
晶体 管 的 成 本 在 持续 下 降 ， 有 效 利用 晶体 管 已 经 成 为 新 兴 市 场 的 主要 驱动 力 ， 并 
且 一 直 影 响 大 量 DSP 技术 的 发 展 。 得 益 于 硅 工 艺 的 发 展 ， 不 仅 平台 越 来 越 便宜 ， 
并 且 速 度 更 快 、 功 耗 更 低 ， 刺 激 了 一 批 DSP 应 用 市 场 的 发 展 ， 尤 其 是 移动 通信 
技术 和 数字 视频 产品 。 

我 们 在 第 2 章 已 经 提 到 ， 数 字 域 的 系统 有 很 多 优点 ， 尤 其 是 精度 可 保证 、 可 
完美 复制 并 且 不 容易 老化 ， 这 些 技 术 的 发 展 是 实现 未 来 新 系统 的 关键 。 在 20 世 
纪 60 年 代 末 到 70 年 代 初 ，Leland B- Jackson 与 其 贝尔 实验 室 的 同事 一 起 开发 了 
最 早 的 DSP 滤波 器 电路 (Jackson 1970) 。 那 时 候 的 主要 目的 是 设计 能 完成 基本 
滤波 函数 ， 如 FIR 和 IIR 等 滤波 器 的 芯片 。 人 们 观察 到 一 个 重要 的 特性 ， 即 晶体 
管 的 二 进 制 操作 非常 适合 实现 DSP 系统 所 需 的 基本 数字 运算 。 

从 20 世纪 60 ERFA, 涌现 了 大 量 的 技术 ， 从 简单 的 微 控 制 器 到 专用 
DSPSoC， 前 者 的 性 能 要 求 通常 是 采样 速率 ， 一般 在 中 等 的 kHz 量 级 上 ， 而 后 者 
的 性 能 接近 每 秒 一 万 亿 次 操作 (TeraOPS) 的 量 级 。 对 于 处 理 器 这 一 类 型 ， 人 们 
开发 了 多 种 形式 的 架构 ， 从 单 核 处 理 器 到 多 核 处 理 器 ， 专 用 DSP 微 处 理 器 一 一 
包括 专用 硬件 来 高 效 地 实现 特殊 DSP 函数 ， 还 包括 可 重 配 DSP 处 理 器 架构 。 另 
一 方向 是 专 为 特殊 应 用 领域 开发 的 专用 指令 集 处 理 器 (Application Specific In- 
struction Preessor, ASIP) 的 发 展 。 作 者 认为 ，DSP 系统 实现 的 主要 准则 与 所 采用 
的 电路 架构 有 关 。 一 般 来 说 ， 硬 件 资源 及 它们 之 间 如 何 连接 对 最 终 的 DSP 系统 
性 能 有 重要 影响 。FPGA 可 以 根据 算法 的 需求 来 设计 架构 ， 但 会 增加 设计 成 本 。 
本 章 将 概括 多 种 实现 DSP 系统 的 技术 ， 将 各 种 方案 进行 比较 ， 并 介绍 一 些 相关 
示例 。 由 于 第 5 章 将 专门 讨论 各 种 FPGA 架构 ， 因 此 本 章 仅 简 单 介绍 FPGA 的 相 
关 方 案 。 本 章 讨论 的 主题 包括 可 编程 能 力 、 编 程 环境 (包括 工具 、 编 译 器 和 体 
系 结构 ) 、 在 指定 平台 上 针对 特殊 DSP RARES, URSA, WE, F 
吐 量 、 功 率 和 重 棒 性 有 关 的 设计 质量 。 本 章 结构 如 下 : 4. 2 节 将 概述 电路 结构 的 
一 些 问题 ， 探 讨 了 技术 的 性 能 局 限 及 可 编程 能 力 的 重要 性 。4. 3 节 将 讨论 DSP R 
统 的 功能 需求 ， 着 重 曾 述 计算 复杂 度 、 并 行 处 理 、 数 据 独 立 性 和 算术 运算 优势 等 
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问题 。4. 4 节 将 概述 处 理 器 的 分 类 ，4. 5 节 将 简单 介绍 微 处 理 器 ，4. 6 节 将 介绍 
DSP 处 理 器 。4.7 节 将 介绍 一 些 并 行 处 理 机 ， 包 括 脉动 阵列 体系 结构 、 单 指令 多 
数据 流 (Single Instruction Multiple Data, SIMD) 和 多 指令 多 数据 流 (Multiple In- 
struction Multiple Data, MIMD), ， 并 列举 了 一 些 示 例 。 为 了 完整 起 见 ，4. 8 节 简 单 
回顾 ASIC 和 FPGA 的 发 展 路 线 ， 本 书后 续 章 节 将 继续 探讨 。 最 后 一 节 探 讨 如 何 
对 多 种 技术 进行 比较 ， 为 第 5 章 将 要 讨论 的 FPGA 进行 铺垫 。 


4.2 架构 和 可 编程 能 力 


在 很 多 处 理 器 系统 中 ， 设 计 不 仅仅 表示 完成 必要 的 顶层 代码 ， 同 时 会 考虑 一 
些 底层 技术 架构 ， 目 的 是 优化 代码 质量 并 提高 性 能 。 直 白地 说 ， 就 是 牺牲 性 能 来 
换取 一 定 的 可 编程 能 力 。 比 如 ， 基 于 冯 “' 诺 依 曼 顺序 处 理 模式 的 微 处 理 器 架构 。 
其 基本 架构 固定 ， 通 过 将 算法 有 效 地 调度 到 内 部 串 行 处 理 架构 上 来 获得 最 佳 性 
能 。 如 果 算 法 的 计算 过 程 本 质 上 并 行 度 很 高 (DSP 中 常常 出 现 的 情况 ) ， 则 性 能 
要 打折 扣 。 如 果 我 们 考虑 另 一 种 极端 情况 ， 开 发 一 种 基于 SoC 的 架构 来 满足 算法 
计算 复杂 度 的 需求 ， 并 且 达 到 所 需 的 并 行 度 〈 如 果 可 行 的 话 ) ， 则 最 佳 性 能 需要 
考虑 面积 、 速 度 和 功 耗 。 为 此 ， 需 要 投入 大 量 设计 力量 来 确保 硬件 实现 评估 准则 
与 算法 性 能 标准 匹配 ， 从 应 用 的 角度 来 说 就 是 最 终 的 设计 能 正确 工作 。 

为 了 更 好 地 理解 构建 电路 架构 的 思想 ， 我 们 先 回顾 一 下 1969 年 的 技术 发 展 
情况 。 当 时 ， 以 晶体 管 数量 来 衡量 的 硬件 处 理 能 力 ， 因 此 非常 重要 的 处 理 过 程 ， 
比如 Jackson (1970) 介绍 的 滤波 器 不 得 不 用 串 行 方式 实现 。 目 前 的 FPGA 技术 
能 提供 好 几 百 位 并 行 的 乘法 器 ， 因 此 也 就 意味 着 不 同类 型 的 架构 ， 算 术 运 算 类 型 
及 最 终 的 性 能 都 完全 不 同 。 其 目的 是 充分 利用 可 用 的 硬件 资源 而 不 仅仅 是 达到 应 
用 的 性 能 指标 。 当 FPGA 技术 因 利 用 硬件 资源 来 满足 性 能 需求 而 大 受 欢迎 时 ， 其 
架构 开发 也 面临 一 系列 与 架构 构建 过 程 有 关 的 问题 , ,比如 设计 时 间 、 需 要 验证 和 
测试 架构 的 各 种 可 能 模式 ， 以 及 与 “一 次 就 做 对 ”的 设计 相关 的 问题 。 在 特定 
硬件 平台 上 实现 算法 可 以 在 吞吐 速率 、 延 迟 、 芯 片面 积 、 能 量 、 功 耗 等 方面 进行 
比较 ， 另 外 还 有 一 个 可 用 来 对 比 这 些 技术 的 重要 主题 是 可 编程 能 力 ， 严 格 地 说 是 
易于 实现 的 可 编程 能 力 。 本 章 后 续 小 节 将 进一步 介绍 ，DSP 硬件 架构 的 可 编程 能 
力 可 在 一 定 程度 上 调整 。 针 对 平台 的 固有 特点 ， 人 们 已 经 开发 了 高 效 的 软件 编译 
器 来 生成 最 有 效 的 实现 ， 因 此 可 以 用 高 级 软件 语言 编程 来 实现 简单 的 固定 硬件 架 
构 平 台 。 然 而 ， 由 于 平台 越 来 越 复杂 且 灵 活 ， 影 响 了 这 些 工 具 的 复杂 度 和 效率 ， 
因此 ， 需 要 引入 特殊 的 指令 来 实现 可 编程 性 。 编 译 器 的 主要 目的 就 是 理解 那些 不 
是 专门 针对 特定 硬件 架构 所 生成 的 源 代码 ， 并 且 知 道 如 何 利用 这 些 特 殊 的 函数 来 
改进 性 能 。 粗 略 地 看 ， 我 们 认为 构建 可 编程 的 电路 架构 在 性 能 上 具有 优势 ， 但 在 
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架构 演进 上 还 面临 一 些 问 题 ， 不 管 是 为 了 满足 应 用 需求 的 小 变化 还 是 适 配 相 似 的 
应 用 。 这 也 突显 了 设计 工具 和 环境 的 重要 性 ， 我 们 将 在 第 11 章 进行 描述 。 

从 可 编程 能 力 角度 看 ，ASIC 是 另 一 种 方案 ， 硬 件 平 台 可 能 被 大 规模 开发 来 
满足 系统 或 某 些 特殊 领域 标准 应 用 的 需求 。 比 如 ， 基 于 WCDMA 的 移动 电话 要 求 
专用 的 标准 DSP 功能 ， 可 通过 开发 包含 处 理 器 和 专用 硬件 IP 模块 的 SoC 平台 来 
实现 。 对 大 多 数 移动 电话 实现 方案 来 说 ， 这 是 满足 能 量 要 求 的 关键 因素 。 然 而 ， 
硅 工 艺 的 成 本 现在 已 经 将 ASIC 实现 推 向 特殊 领域 ， 通 常 ， 这 一 领域 的 解决 方案 
要 么 是 大 量 生产 ， 要 么 具有 特殊 的 要 求 ， 比 如 在 一 些 传感器 中 要 求 超 低 功 耗 。 

开发 同时 具有 一 定 程度 的 硬件 可 编程 能 力 和 软件 可 编程 能 力 架 构 的 思想 已 经 
在 FPGA 架构 上 实现 了 。FPGA 架构 主要 是 由 逻辑 元 素 、LUT、 寄 存 器 、 布 线 、 
可 配置 O 和 一 些 专用 硬件 组 成 ， 它 是 实现 高 性 能 的 理想 架构 。 


4.3 DSP 功能 特点 


通常 ，DSP 运算 有 如 下 特点 : 计算 量 大 ， 适合 采用 并 行 处 理 器 实现 ， 并 且 并 
行 化 程度 高 ; 数据 独立 ， 在 一 些 情况 下 相对 科学 计算 等 高 性 能 应 用 来 说 对 算术 运 
算 要 求 较 低 。 为 了 能 够 判断 这 些 特点 对 DSP 算法 在 FPGA 等 硬件 平台 上 实现 时 的 
影响 ,我 们 需要 充分 理解 这 些 特点 。 

1. 计算 复杂 度 

DSP 算法 可 能 很 复杂 。 比 如 ,考虑 式 (4-1) 的 N 抽 头 FIR 滤波 器 表达 式 
(第 2 章 中 的 式 (2-11) ) 。 


= Fa, (4-1) 


从 上 面 的 计算 式 可 看 到 ，ao ， WIA x, 相 乘 ， 接 着 是 a, 和 和 -1+ 相 乘 ， 再 相 
加 ， 以 此 类 推 。 假 设 抽 头 数 为 Y， 这 意味 着 计算 y, 需要 做 NN 次 乘法 和 NN -1 次 加 
法 。 
Yn 三 QoXn 十 QIXn -1 十 Q2Xn -2 十 "十 QN-1Xn-N+l (4-2) 
假设 另 一 次 计算 从 下 一 个 样 点 %, ,1 输入 开始 ， 我 们 可 以 定义 每 周期 要 求 的 
计算 量 ， 即 每 个 样 点 2N 次 运算 或 每 个 抽 头 两 次 运算 。 如 果 用 处 理 器 来 实现 ， 要 
求 每 个 周期 装载 一 次 数据 ， 则 可 能 需要 2 ~ 3 个 周期 来 装载 数据 和 系数 并 存储 累 
加 和 。 这 可 能 意味 着 每 个 周期 额外 需要 3 次 运算 ， 因 此 最 终 每 个 抽 头 上 需要 6 次 
2A, MERA, BMA ON 次 运算 。 对 于 采样 速率 为 44. 2kHz 的 音频 应 
FA, 128 抽 头 的 滤波 器 要 求 33.9 百 万 样本 / 秒 (MSPS) 的 处 理 速 度 ， 对 一 些 技 
术 来 说 可 能 是 能 实现 的 ， 但 如 果 考 虑 13. 5MHz 的 图 像 处 理 速 度 ， 则 计算 速度 会 
暴 增 ， 可 能 达到 每 秒 10 千 兆 样本 (GSPS) 的 处 理 速 度 。 此 外 ， 这 可 能 只 是 系统 
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中 一 个 函数 的 需求 ， 计 算 量 也 只 是 全 部 计算 量 的 一 小 部 分 。 

对 于 处 理 器 的 实现 ， 设 计 者 会 判断 硬件 能 否 满足 吞吐 量 的 需求 ， 一 般 是 通过 
将 处 理 器 的 时 钟 速度 除 以 每 个 周期 需要 完成 的 运算 总 数 来 决定 的 。 这 种 方法 有 可 
能 不 能 很 好 地 发 挥 系统 性 能 ， 例 如 ， 如 果 N 较 大 ， 则 时 钟 速度 和 吞吐 率 的 差异 
也 会 较 大。 时 钟 速率 可 以 很 快 ， 以 便 提供 必要 的 采样 速率 ， 但 在 系统 设计 时 面临 
的 问题 是 ;很 快 的 时 钟 速率 与 控制 功 耗 ， 尤 其 是 动态 功 耗 相 矛盾 ， 因 为 功 耗 直接 
和 时 钟 速率 有 关 。 

2. 并 行 化 

DSP 算法 的 特征 是 并 行 化 程度 很 高 。 比 如 ， 
X (4-1) 的 表达 式 可 以 在 单个 处 理 器 实现 , 或 a 
者 采用 并 行 方式 实现 ， 如 图 4-1 所 示 ， 图 中 的 
每 个 元 素 都 是 一 个 硬件 单元 ， 意 味 着 有 127 个 
寄存 器 对 应 延迟 元 素 ，127 个 乘法 器 用 来 计算 
ax RER GEP i=0, 1, 2, =, N-1), 
还 有 128 个 输入 的 加 法 ， 它 通常 可 用 加 法 器 树 
来 实现 。 这 种 方式 是 通过 增加 硬件 复杂 度 来 将 
算法 的 迭代 过 程 在 一 个 样本 周期 中 实现 。 显 然 ， 
高 度 并 行 化 的 系统 和 存储 能 力 可 以 加 快 计算 。 ”图 4.1 简单 的 FIR 滤波 器 
还 有 其 他 一 些 并 行 化 方法 用 来 达到 所 要 求 的 性 并 行 实现 结构 
能 ， 本 书后 续 章 节 中 将 重点 介绍 。 

3. 数据 独立 性 

数据 独立 性 的 特点 非常 重要 ， 它 为 计算 的 排序 提供 了 条 件 。 对 减少 寄存 器 和 
数据 存储 器 的 需求 来 说 非常 重要 。 比 如 ， 考 虑 式 (4-1) 中 FIR 滤波 器 的 NUCH 
代 计算 。 





Yn Faq X, t G4X,.. + +a% -2 十"… 十 十 QN-1Xn-N+l 
Yn+1 709X4,41 * G4 Mn 十 十 Q2Xn-1 十 … 十 十 QN-1Xn-N+2 
Yn+2 =Q0Xn+2 十 Q1Xn+1l 十 十 02 Xn 十 "十 十 QN-1Xn-N+3 


yn+N-1 三 QoXn+N-1 十 QIXn+N 十 十 02Xn+N+1L1 十 "十 十 CQN-1Xn 
我 们 可 以 看 到 ， 上 述 N 次 计算 都 需要 数据 x,， 因 此 我 们 完全 可 以 用 数据 和 
并 行 地 执行 从 y 到 y, ;nw-1 这 NN 次 计算 ,从 而 避免 存储 x,。 显 然 ， 现在 需要 存储 
中 间 累 加 器 的 结果 。 这 给 设计 者 提供 了 多 种 途径 来 优化 系统 性 能 ， 并 且 最 终 的 设 
计 也 有 不 同 选项 。 上 面 仅仅 是 数据 独立 性 的 一 个 方面 。 
4. 算术 运算 要 求 
在 很 多 DSP 技术 中 ， 对 输入 数据 字 长 的 要 求 是 尽 可 能 降低 内 部 精度 。 以 表 
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3-6 中 不 同 应 用 的 可 变 字 长 为 例 ,， 通常， 输入 字 长 由 模 数 转换 器 (A-D) 的 精 
度 或 原始 信号 中 的 噪声 决定 ， 后 者 可 能 会 影响 系统 中 的 总 噪声 。 内 部 字 长 依赖 于 
计算 的 类 型 ， 比 如 乘法 或 加 法 及 其 数量 ， 其 增长 可 以 限制 ， 这 就 是 说 合适 的 定点 
实现 就 已 经 足够 了 。 

较 低 的 算术 运算 需求 至 关 重 要 ， 尤 其 是 对 FPCA 实现 ， 因 为 浮 点 缺乏 灵活 
度 。 有 限 的 字 长 意味 着 较 小 的 寄存 器 需求 、 更 快 的 实现 一 一 因为 加 法 器 和 乘法 器 
的 速度 由 输入 字 长 决定 ， 以 及 较 小 的 面积 。 因 此 ， 设 计 人 员 花 了 很 多 精力 研究 如 
何 选 定 最 大 字 长 。 其 中 有 趣 的 一 点 是 ， 对 很 多 处 理 器 实现 来 说 ， 外 部 和 内 部 字 长 
在 架构 开发 时 就 提前 确定 了 ， 但 对 FPGA 来 说 ， 需 要 详细 分 析 来 决定 在 DSP 系统 
不 同 部 分 的 字 长 (Constantinides 等 2004) 。 

上 面 描述 的 DSP 计算 的 特点 对 确定 一 种 高 效 的 实现 方案 非常 重要 ， 有 的 时 
候 还 推动 技术 的 发 展 。 比 如 ， 早 期 DSP 处 理 器 和 微 处 理 器 之 间 的 一 个 主要 区 别 
在 于 是 否 有 专用 的 乘法 器 核 。 对 DSP 处 理 器 来 说 是 切实 可 行 的 ， 因 为 就 是 为 以 
乘法 为 主要 操作 的 DSP 应 用 设计 的 ， 但 对 一 般 的 处 理应 用 来 说 就 不 一 样 了 ， 因 
此 早期 的 微 处 理 器 中 没有 添加 乘法 器 。 


4.4 处 理 器 分 类 


实现 DSP 的 技术 包括 微 控制 器 和 单 芯片 DSP 多 处 理 器 ， 而 后 者 又 包括 将 超 
长 指令 字 (Very Long Instruction Word, VLIW) 扩展 以 支持 指令 并 行 化 的 传统 处 
理 器 架构 和 专门 为 特殊 应 用 领域 设计 的 专用 架构 。 虽 然 在 Flynn 提出 的 分 类 方法 
之 后 还 有 其 他 更 详细 的 分 类 法 ， 但 Flynn 的 分 类 方法 是 使 用 最 多 的 ， 他 将 指令 和 
数据 当 作 计 算 机 中 两 个 独立 的 流 ， 参 见 表 4-1 的 分 类 总 结 。 
表 4-1 Flynn 提出 的 处 理 器 分 类 方法 





















单 指令 单数 据 (SISD) 
单 指令 多 数据 (SIMD) 
多 指令 单数 据 (MISD) 
多 指令 多 数据 (MIMD) 


单 指令 流 操 作 单 数据 流 
多 个 处 理 单元 ， 同 步 操作 单数 据 流 
| Y 


LER 诺 依 曼 处 理 器 
超 长 指令 字 处 理 器 
没有 实际 示例 











多 个 处 理 单元 独立 操作 各 自 的 数据 流 


4.5 微 处 理 器 


图 4-2 所 示 为 经 典 的 冯 “. 诺 依 曼 (von Neumann, vN) 微 处 理 器 架构 。 这 种 
类 型 的 架构 是 典型 的 单 指令 单数 据 (Single Instruction Single Data, SISD) 类 型 架 
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构 ， 串 行 地 评估 一 串 指 令 并 按 顺 序 对 特定 数据 执行 指令 。 这 种 架构 由 5 个 单元 组 
Bi: 存储 数据 和 指令 的 存储 器 、 指 令 获 取 和 译 码 (Instruction Fetch and Decode, 
IFD) 单元 、 算 术 逻 辑 单 元 (Arithmetic Logic Unit, ALU) 和 内 存 访 问 (Memory 
Access, MA) 单元 。 这 些 单元 对 应 处 理 过 程 的 4 个 不 同 阶段 ， 机 器 执行 每 条 指 
令 都 会 重复 这 些 过 程 : 





图 4-2 冯 : 诺 依 曼 微 处 理 器 架构 


1) 指令 获取 ; 

2) 指令 译 码 ; 

3) 执行 ; 

4) 内 存 访问 。 

在 指令 获取 (Instruction Fetch, IF) 阶段 ，IFD 单元 将 程序 计数 器 (Program 
Counter, PC) 所 指 地 址 中 的 指令 装载 到 指令 寄存 器 (Instruction Register, IR) 。 
在 指令 译 码 (Instruction Decode, ID) 阶段 ，IFD 将 指令 译 码 并 为 ALU 生成 操作 
码 及 两 个 操作 数 的 地 址 ， 它 们 将 被 送 到 ALU 的 输入 寄存 器 。 在 执行 阶段 ，ALU 
对 操作 数 执行 操作 码 所 指定 的 运算 ， 得 到 结果 后 在 MA 阶段 将 其 返回 寄存 器 。 通 
常 ， 这 类 SISD 机 器 可 以 根据 指令 集 类 型 再 分 成 两 类 : 中 复杂 指令 集 计 算 机 
(Complex Instruction Set Computer, CISC) 采用 复杂 指令 格式 ， 可 以 为 特殊 运算 
高 度 定制 ， 其 代码 比较 紧凑 ， 但 会 导致 流水 线 指令 执行 变 得 复杂 ; @ 精 简 指 令 集 
计算 机 (Reduced Instruction Set Computer, RISC) 采用 标准 的 简单 指令 格式 ， 可 
通过 常规 方式 处 理 ， 流 水 线 操作 可 提高 吞吐 量 ， 但 会 增加 代码 量 。yN 处 理 器 架 
构 是 为 通用 计算 而 设计 的 ， 由 于 处 理 流程 高 度 串 行 的 特点 ， 因 此 只 局 限于 能 入 式 
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应 用 ， 这 种 处 理 器 架构 适合 于 通用 目的 环境 。 然 而 ， 骨 入 式 处 理 器 必须 要 灵活 ， 
它们 通常 要 针对 特殊 应 用 进行 调整 ， 且 性 能 要 求 较 高 ， 比 如 低 功 耗 或 高 吞吐 量 。 


4.5.1 ARM 微 处 理 器 架构 系列 


ARM 系列 敌人 式微 处 理 器 是 RISC 处 理 器 架构 的 一 个 典范 ， 它 是 RISC 处 理 
器 架构 (指令 执行 路 径流 水 线 操作 ) 的 一 个 重要 品牌 。 表 4-2 列举 了 ARM 微 处 
理 器 系列 中 3 个 型 号 的 主要 特征 。 

这 些 处 理 器 架构 流水 线 操作 程度 较 低 ， 但 在 逐渐 增加 〈 如 表 4-2 和 图 4-3 列 
出 的 ARM 处 理 器 ) ， 从 而 在 一 定 程度 上 增加 了 每 个 单元 的 吞吐 量 。 随 着 流水 线 
长 度 增加 ， 可 以 合理 地 改善 性 能 ， 但 增加 了 控制 复杂 度 ， 另 外 限制 因素 也 增加 ， 
其 中 一 个 就 是 对 流水 线 长 度 的 限制 。 因 此 ， 为 了 增加 实时 处 理 的 性 能 ， 处 理 器 架 
构 必 须 考虑 其 他 形式 的 并 行 化 机 制 。 第 4. 6 节 将 讨论 这 类 处 理 器 架构 中 采用 的 不 
同 的 技术 ， 并 列举 一 些 示例 。 

表 4-2 ARM 微 处 理 器 系列 概括 





图 4-3 ARMII 流水 线 结构 


4.6 DSP 微 处 理 器 


第 4.5 节 提 到 微 处 理 器 架构 串 行 处 理 的 特点 ， 使 其 不 适合 有 效 地 实现 需要 复 
杂 计 算 的 DSP 系统 ， 要 么 就 是 不 能 达到 所 要 求 的 采样 速率 ， 要么 就 是 能 够 满足 
采样 速率 需求 但 却 消耗 大 量 功率 。 对 微 处 理 器 的 实现 来 说 ， 串 行 架 构 主 要 用 于 数 
据 处 理应 用 ， 在 计算 过 程 中 ， 很 多 晶体 管 都 起 不 到 实际 作用 。 因 此 ， 固 定 的 通用 
处 理 器 付出 的 代价 是 ， 很 多 晶体 管 消耗 能 量 但 却 对 性 能 毫 无 贡献 。 

因此 ， 人 们 开始 寻求 其 他 适合 DSP 的 处 理 器 架构 。 在 20 世纪 80 年 代 ，TI 
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公司 设计 的 DSP 微 处 理 器 TMS32010 上 市 ， 它 的 功能 和 微 处 理 器 相似 ， 但 不 同 的 
是 ， 它 基于 哈佛 架构 ， 将 程序 存储 器 和 数据 存储 器 分 开 ， 并 且 使 用 独立 总 线 。 概 
括 地 说 ， 它 们 是 针对 DSP 需要 执行 乘法 和 累加 运算 而 优化 的 微 处 理 器 架构 ， 功 
耗 更 低 。 图 4-4 所 示 为 汉 “' 诺 依 曼 架 构 和 哈佛 架构 的 区 别 。 在 汉 “ 诺 依 曼 架 构 
中 ， 程 序 和 数据 使 用 同一 块 存储 器 ， 因 此 性 能 瓶颈 在 存储 器 。 在 哈佛 架构 中 ， 数 
据 存储 器 和 程序 存储 器 相互 独立 ， 因 此 数据 和 程序 都 独立 地 加 载 到 处 理 器 。 哈 佛 
架构 还 有 一 些 专用 硬件 来 对 数据 进行 特殊 的 操作 。 起 初 是 专用 的 乘法 器 ， 随 着 集 
成 度 的 增加 ， 后 来 增加 了 更 多 复杂 的 功能 。 


| wem | 





图 4-4 15 ' 诺 依 曼 架构 和 哈佛 架构 
a) 冯 “' 诺 依 曼 架 构 b) 哈佛 架构 


独立 的 数据 存储 器 和 程序 存储 器 ， 以 及 专用 DSP 硬件 是 早期 DSP 处 理 器 的 
重要 基础 。TI 公司 设计 的 TMS32010 DSP 被 认为 是 第 一 个 DSP 架构 ， 也 是 哈佛 架 
构 早 期 的 应 用 之 一 ， 充 分 体现 了 哈佛 架构 的 特点 。 从 图 4-5 可 以 清楚 地 看 到 ， 其 
结构 中 包括 程序 和 数据 总 线 ， 虽 然 是 早期 设备 ， 但 除了 常规 的 ALU， 它 还 包含 
一 个 专用 的 乘法 - Rin PHB. BEAL AY TMS32010 16 位 处 理 器 指令 周期 为 200ns 
(5MIPS), ， 可 以 在 400ns 内 完成 一 次 乘 - 累加 ( Multiply- Accumulate, MAC) 
操作 。 

此 后 ， 基 于 这 个 架构 做 了 很 多 改进 (Berkeley Design Technology 2000), F 
面 将 简单 介绍 。TI 公司 的 TMS320C64xx 系列 器 件 将 在 下 一 节 介 绍 (Dahnoun 
2000 ，Texas Instruments Inc. 1998 ) 。 

(1) VLIW。 从 早期 的 处 理 器 架构 到 现代 处 理 器 架构 ， 内 部 总 线 字 长 在 逐渐 
增加 。 它 利用 多 个 处 理 功能 单元 ， 使 得 每 条 指令 的 多 个 运算 可 以 并 行 执行 。 这 种 
处 理 器 还 可 以 继续 挖掘 这 些 硬件 单元 的 潜能 ， 当 然 ， 这 取决 于 要 执行 的 计算 及 基 


64 信号 处 理 系统 的 FPCA 实现 








于 此 架构 的 编译 器 的 效率 。 当 技术 开始 向 高 级 编程 语言 发 展 时 ， 问 题 变 复杂 了 ， 
高 级 编程 语言 需要 对 编译 器 做 很 好 的 优化 ， 从 而 可 以 有 效 地 翻译 高 级 语言 的 代码 
并 清除 程序 员 造 成 的 元 余 编码 。 

(2) 数量 增加 的 数据 总 线 。 在 一 些 器 件 ， 比 如 亚 德 诺 半 导体 ( Analog De- 
vice, ADI) 的 超级 哈佛 架构 (Super Havard Architecture, SHARC) ADSP-2106x 
(ADI, 2000) 中 ， 增 加 了 数据 总 线 的 数量 。 其 依据 是 很 多 DSP 运算 都 有 两 个 操 
作 数 ， 因 此 需要 将 3 块 信息 (包括 指令 ) 输入 到 存储 器 。 通 过 增加 总 线 数量 可 
以 提高 运算 速度 ， 但 同时 也 增加 了 器 件 的 引 脚 数 。 然 而 ，SHARC 架构 通过 使 用 
程序 缓存 来 避免 此 问题 ， 因 此 当 程 序 未 在 缓存 中 执行 时 ， 可 以 将 指令 的 总 线 当 作 
数据 总 线 使 用 。 
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图 4-5 TI ZH] Ay TMS32010 DSP 处 理 器 〈 由 TI 公司 许可 复制 ) 


(3) 流水 线 引 入 。VLIW 的 目的 是 并 行 化 ， 另 一 种 开发 并 行 化 的 方法 是 引入 
流水 线 ， 两 者 都 在 DSP 架构 的 处 理 单元 内 ， 针 对 程序 执行 过 程 优化 。 流 水 线 作 
业 将 处 理 过 程 分 成 小 的 时 间 单 元 ， 从 而 可 以 在 相同 的 硬件 上 同时 执行 几 个 时 间 点 
的 重要 计算 。 其 代价 是 增加 了 延迟 。 流 水 线 也 可 以 应 用 在 处 理 器 控制 单元 内 ， 控 
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制程 序 获取 、 指 令 分 发 和 指令 译 码 运 算 ， 如 图 4-6 所 示 ， 具 体 细节 将 在 下 一 节 


介绍 。 
程序 控制 单元 
















数据 路 径 1 数据 路 径 1 
eet a (al n 


控制 寄存 器 
Test 仿 真 控制 和 中 断 逻辑 


图 4-6 TI ZH) Ay TMS320C62 和 TMS320C67 模块 图 (Dahnoun 2000) 


(4) 定点 运算 。 实 际 应 用 中 ， 很 多 DSP 系统 只 需要 完成 定点 算术 运算 ， 并 
不 要 求 DSP 处 理 单元 提供 全 精度 的 算术 运算 。 因 此 ， 人 们 为 不 同 的 应 用 环境 开 
发 定点 或 浮 点 的 应 用 。 然 而 ， 即 使 是 定点 应 用 ， 部 分 运算 也 不 需要 一 些 处 理 器 
(如 TMS320C64xx 系列 处 理 器 的 32 位 精度 ) 所 提供 的 全 部 定点 精度 范围 ， 从 而 
使 得 利用 率 较 低 。 举 例 来 说 ， 对 图 像 处 理应 用 中 的 滤波 器 ， 输 入 字 长 可 能 在 8 ~ 
10 位 ， 系 数字 长 可 能 在 12 ~ 16 位 。 因 此 ， 乘 法 阶段 并 不 要 求 任 何 大 于 16 x 16 
的 乘法 器 ，DSP 处 理 器 就 可 以 利用 这 一 特点 来 管理 其 中 的 处 理 单 元 ， 比 如 
TMS320C64xx 中 的 处 理 单元 就 能 够 在 同一 时 间 完 成 两 个 16 x 16 位 的 乘法 ， 从 而 
提高 吞吐 量 。 此 时 ， 处 理 器 并 没有 因 内 部 所 使 用 的 字 长 而 降低 效率 。 

上 述 的 优化 方案 一 直 发 展 了 好 多 年 ， 也 提高 了 性 能 。 然 而 ， 为 了 理解 架构 在 
某 些 应 用 中 的 实现 ， 还 需要 考虑 运算 本 身 。 


4.6.1 DSP 微 运算 


本 节 将 介绍 TMS320C64xx 系列 架构 (Dahnoun 2000, Texas Instruments 
Inc. 1998) ， 这 是 一 款 经 典 的 DSP 处 理 器 。 图 4-6 所 示 为 该 处 理 器 CPU 部 分 的 简 
化 模型 。 图 中 的 程序 控制 单元 (Program Control Unit, PCU) 先 获取 指令 ， 将 指 
令 分 发 到 对 应 的 处 理 器 ， 然 后 执行 指令 译 码 。TMS320C64xx AM aE, A 
个 数据 通道 单元 。 在 TI 公司 的 器 件 中 ， 将 功能 单元 分 成 两 组 ， 每 组 有 4 个 功能 
单元 (L，M，S 和 了 D) ， 其 中 工 单 元 可 用 于 32/40 位 的 算术 运算 和 比较 运算 、32 
位 的 逻辑 运算 、 归 一 化 和 位 统计 运算 ， 以 及 32/40 位 的 饱和 算术 运算 ，M 单元 可 
以 执行 多 种 类 型 的 乘法 运算 ， 比 如 4 个 8x8、2 个 16x16 和 1 个 16 x32 的 运 
算 ，S 单元 可 以 执行 多 种 算术 运算 ， 即 移 位 、 分 支 和 比较 运算 ，D 单元 完成 各 种 
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加 载 和 存储 操作 。 需 要 说 明 的 是 ， 这 不 是 处 理 单元 的 精确 定义 (Texas Instru- 
ments Inc. 1998) ， 但 给 出 了 功能 的 概念 。 该 处 理 器 还 包括 寄存 器 堆 和 模块 之 间 通 
信 的 通道 。 在 TI 公司 的 处 理 器 中 ， 有 交叉 通道 连接 CPU 的 两 个 部 分 ( Dahnoun 
2000 Texas Instruments Inc. 1998) 。 

能 够 利用 多 个 硬件 提供 处 理 能 力 是 非常 关键 的 目标 ， 当 然 这 不 仅 依 赖 于 将 要 
执行 的 计算 ， 还 依赖 于 编译 器 的 使 用 情况 ， 后 者 要 做 一 些 简化 来 提高 效率 。 这 些 
简化 流程 包括 移 除 从 未 调用 的 函数 、 简 化 返回 值 从 未 过 的 函数 、 重 新 调整 函数 声 
明和 函数 变量 传输 方式 等 (Dahnoun 2000) 。 编 译 器 还 做 了 很 多 优化 来 利用 基础 
架构 的 优点 ， 包 括 软 件 流水 线 、 循 环 优 化 、 展 开 循 环 和 其 他 流程 来 移 除 全 局 分 配 
和 表示 (Dahnoun 2000) 。 


4.7 并 行 机 


串 行 模型 目前 能 够 实现 很 多 算法 ， 从 这 种 意义 上 来 说 已 经 相当 不 错 了 ， 但 
DSP 实现 真正 的 增益 来 自 硬件 并 行 化 。 因 此 ， 人 们 投入 大 量 精 力 开发 硬件 ， 其 中 
包括 由 早期 的 晶体 计算 机 演进 而 来 的 并 行 硬 件 〈Inmos 1989) 。 然 而 ， 获 得 这 种 
并 行 化 程度 正 是 关键 问题 。 脉 动 阵列 (Kung 和 Leiserson 1979, Kung 1988) 是 实 
现 这 种 并 行 化 的 一 种 重要 架构 ， 本 节 首 先 将 介绍 该 架构 。 


4.7.1 脉动 阵列 


1979 4E, Kung 和 Leiserson 将 脉动 阵列 架构 引入 超大 规模 集成 电路 ( Very 
Large Scale Integration, VLSI) (Kung 和 Leiserson 1979) 。 总 体 上 说 ， 它 们 具有 下 
面 的 特征 (Kung 1988) : 

1) 一 组 高 度 并 行 化 的 处 理 器 ; 

2) 处 理 器 类 型 数量 较 少 ; 

3) 控制 简单 ; 

4) 局 部 的 互 连 接 。 

其 处 理 能 力 来 自 于 并 行使 用 很 多 简单 的 单元 ， 而 不 是 几 个 非常 强大 的 单元 串 
行使 用 。 这 种 架构 非常 适合 具有 简单 且 常 规 数据 流 的 并 行 算法 ， 比 如 和 矩阵 运算 。 
通过 流水 线 ， 脉 动 阵列 中 的 运算 可 以 连续 地 在 阵列 中 推进 ， 从 而 能 够 充分 利用 处 
理 单元 。 

图 4-7 所 示 为 一 个 简单 的 线性 结构 脉动 阵列 示例 。 其 中 ， 黑 色 圆 点 表示 每 个 
处 理 单元 (Processing Element, PE) 后 的 流水 线 阶段 。 穿 过 这 些 流 水 线 阶段 的 线 
条 表示 调度 线 ， 它 表示 同时 处 在 相同 迭代 过 程 的 中。 换 名 话说， 这些 计 算 在 同 
一 时 钟 周期 执行 。 
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a) b) 


图 4-7 线性 结构 脉动 阵列 架构 
a) Jj b) fF 


图 4-8 所 示 为 另外 两 个 示例 。 图 4-8a 所 示 为 多 个 单元 组 成 的 方形 阵列 ， 每 
个 单元 都 使 用 局 部 互 连 接 。 这 种 类 型 的 阵列 非常 适合 矩阵 运算 。 图 4-8b 所 示 为 
一 个 六 边 形 结构 的 脉动 阵列 示例 。 上 述 示例 中 ， 每 个 PE 都 只 从 最 近 的 单元 接收 
数据 ， 每 个 处 理 器 都 包含 一 个 小 型 的 局 部 寄存 器 用 来 存储 中 间 结 果 。 数 据 在 阵列 
中 的 传递 通过 同步 时 钟 来 控制 ， 像 水 泵 一 样 推动 数据 在 阵列 中 移动 ， 由 于 和 心脏 
将 血液 泵 送 到 全 身 的 过 程 相似 , “脉动 ”因此 而 得 名 。 图 4-9 所 示 为 用 于 QR 分 
解 的 脉动 阵列 。 该 阵列 由 两 类 单元 组 成 ， 即 边界 单元 和 内 部 单元 ， 都 是 局 部 互 
连接 。 
调度 矢量 
“Ue 





图 4-8 脉动 阵列 架构 
a) WH b) AWE 


脉动 阵列 的 思想 有 很 多 种 应 用 方式 。McCanny 和 McWhirter (1987) 将 其 应 
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用 到 位 级 脉动 阵列 ， 而 脉动 阵列 技术 的 创始 人 
将 此 思想 进一步 开发 成 Warp, Intel 和 卡 内 基 
梅 隆 大 学 在 1988 年 尝试 用 其 在 单个 微 处 理 器 
上 搭建 完整 的 并 行 计算 节点 ， 并 且 具 有 存储 器 
和 通信 链 路 。 此 类 开发 的 主要 问题 在 于 它们 都 
是 针对 特定 应 用 ， 用 来 解决 一 些 计算 复杂 的 算 
法 ， 相反， 脉动 阵列 的 设计 思想 被 成 功 地 用 来 
开发 大 量 信号 处 理 芯片 (Woods 和 Masud 
1998, Woods 等 2008)。 第 12 章 将 介绍 如 何 
将 这 一 思想 用 于 IP 核 的 开发 。 


4.7.2 SIMD 架构 图 4-9 三 角 QR 脉动 阵列 


第 一 类 基于 SIMD 架构 的 并 行 计 算 机 有 Iliac IV (Barnes 等 1968) 和 第 二 
代 互 连 机 器 (Connection machine-2, CM-2) (Hillis 1985) , Iliac IV 表示 伊利 诺 
斯 积分 仪 和 自动 计算 机 ， 它 是 一 种 高 度 并 行 的 机 器 ， 具 有 64 个 处 理 单元 ， 全 部 
由 一 个 控制 单元 (Control Unit, CU) 控制 。 这 些 处 理 单元 同时 执行 相同 的 操作 ， 
每 个 处 理 单元 都 有 各 自 的 存储 器 。 最 初 的 CM-2 思想 来 自 于 麻 省 理工 学 院 ， 它 是 
一 个 由 简单 处 理 单元 组 成 的 超 立 方 体 ， 处 理 单 元 又 由 具有 各 自 存储 器 的 简单 
CPU 组 成 。CM-2 有 很 多 处 理 单元 (通常 为 64000 个 ) ， 每 次 处 理 一 位 ， 但 后 来 
扩展 到 浮 点 运算 。 这 些 早期 的 架构 都 可 以 归 为 通用 SIMD 类 型 的 架构 ， 其 中 由 一 
个 CU 获取 指令 并 且 将 指令 分 发 给 多 个 处 理 单元 ， 它们 同时 执行 相同 的 操作 
(Sima 等 ”1997)。 区 分 SIMD 类 型 中 的 各 种 架构 的 主要 特征 有 PE 复杂 度 、PE A 
主 程度 、PE 连接 类 型 和 数量 ， 以 及 PE 的 连接 拓扑 (Sima 等 ”1997)。 基 本 上 ， 
SIMD 模型 非常 适合 大 量 信 号 和 图 像 处 理应 用 中 遇 到 的 常规 结构 的 计算 。 然 而 ， 
开发 传统 的 大 规模 并 行 SIMD 类 型 的 计算 机 要 求 按 需 实现 ， 也 就 是 说 专 为 某 些 算 
法 或 应 用 定制 。 相 对 于 目前 受 硅 芯片 技术 推动 的 复杂 微 处 理 器 的 开发 来 说 ， 其 成 
本 很 高 ， 并 且 收 益 不 大 。 因 此 ， 传 统 SIMD 类 型 的 架构 被 MIMD 类 型 的 架构 所 取 
代 ， 后 者 可 以 由 现成 的 廉价 微 处 理 器 构建 。 

最 近 ， 为 了 应 对 多 媒体 的 处 理 任务 ， 现 代 微 处 理 器 将 指令 集 进行 了 扩展 ， 
SIMD 类 型 的 架构 又 开始 获得 重视 ， 虽 然 只 是 很 小 的 应 用 领域 。 其 中 一 个 范例 是 
Intel 最 初 用 于 其 奔腾 3 微 处 理 器 系列 (Intel Corp. 2001) 的 SIMD 流 技术 扩展 第 
二 代 (Streaming SIMD Extensions2, SSE2); 另 一 个 用 例 是 苹果 、IBM 和 摩托 罗 
拉 联 合 设计 的 Altivec (Intel Corp. 2001) ， 它 可 将 128 位 的 处 理 分 解 为 并 行 的 16 
个 8 位 或 者 8 个 16 位 的 整数 运算 ， 或 者 4 个 浮 点 运算 。 这 些 新 指令 集 意 味 着 要 
改动 底层 处 理 器 的 架构 ， 包 括 处 理 流 程 和 寄存 器 堆 的 组 织 ， 同 时 也 增加 了 指令 
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集 。 另 外 ,开发 人 员 还 设计 了 单 芯 片 专用 SIMD 架构 ， 比 如 Imagine 处 理 器 
( Khailany “ 2001) 和 Clearspeed 的 CSX600 ( Clearspeed Tech. ple 2006) 。 针 对 这 
些 平台 的 高 效 高 级 编程 目前 仍然 是 一 个 热点 研究 问题 ， 下 面 将 简要 介绍 这 两 种 处 
Hiro 

1. Imagine 处 理 器 

Imagine 芯片 采用 并 行 架构 ， 它 有 48 个 浮 点 算术 逻辑 单元 和 一 个 特殊 的 分 级 
存储 器 ， 针 对 程序 流 进行 了 优化 (Kapasi 等 2002) Imagine 项 目 不 仅 包括 架构 
开发 ， 还 包括 基于 “ 流 编程 ”模型 的 编程 环境 开发 。 开 发 编程 环境 和 平台 的 关 
键 是 实现 一 个 高 效 的 平台 。 流 编程 模型 很 适合 图 像 处 理应 用 ， 由 于 需要 传递 较 大 
的 图 像 数据 ， 因 此 这 类 应 用 中 数据 流 的 特征 比较 明显 。 借 助 于 该 模型 ， 软 件 可 以 
充分 利用 图 像 处 理应 用 固有 的 局 部 性 和 并 行 化 特点 ， 从 底层 架构 获得 较 高 的 性 能 
增益 。 比 如 ， 在 MPEG -2 编码 应 用 中 ， 期 望 的 处 理性 能 可 达到 每 秒 183 亿 次 运 
算 (18.3GOPS) ， 相 当 于 每 秒 处 理 105 帧 ， 每 帧 720 x 480 像素 、24 位 表示 的 彩 
色 图 像 ， 功 耗 为 2.2W (Khailany 2001), 

图 4- 10 所 示 为 Imagine 流 处 理 器 架构 的 模块 。 它 包括 一 个 128KB 的 流 寄存 
器 堆 (Stream Register File, SRF) 、48 个 浮 点 算术 运算 单元 一 一 分 成 8 个 算术 运 
算 单 元 篮 且 由 一 个 微 控制 器 控制 、 一 个 网 络 接口 、 一 个 具有 4 个 SDRAM 通道 的 
流 存储 系统 ， 以 及 一 个 流 控制 器 。 开 发 人 员 设 计 了 一 组 流 指 令 : Load (加 载 ) 
和 store (存储 ) ， 前 者 将 数据 从 片 外 的 SDRAM 加 载 到 SRF， 后 者 将 来 自 SRF 的 
数据 存储 到 片 外 SDRAM， 从 而 实现 访问 外 部 数据 的 目的 ; Send (3X) 和 Re- 
ceive (接收 ) 指令 用 于 发 送 和 接收 从 SRF 到 其 他 Imagine 处 理 器 ， 或 者 到 由 外 部 
网 络 连接 的 处 理 单元 的 数据 流 ; Cluster op (RRE) 指令 将 流 加 载 到 处 理 单元 然 
后 再 将 返回 的 流 存储 到 SRF; Load microcode ( 加载 微 代码 ) 指令 将 内 核 微 代码 
的 576 位 VLIW 指令 流 从 SRF 加 载 到 微 处 理 器 指令 存储 单元 (FE 2048 条 指令 ) 
(Khailany 等 2001) 。Imagine 支持 长 达 32k 字 的 流 。 处 理 器 由 主 处 理 器 配置 ， 主 
处 理 器 发 送 流 指令 到 流 控 制 器 进行 译 码 ， 然 后 指示 流 控 制 器 将 其 发 送 到 其 他 片上 
模块 。 

Imagine 的 一 个 亮点 在 于 处 理 内 核 可 以 执行 复合 操作 ; 这 些 内 核 从 SRF 的 输 
入 流 中 读 取 一 个 元 素 ， 然 后 执行 多 种 算术 运算 ， 将 结果 追加 到 输出 流 ， 再 传 回 
SRF。 它 避免 了 串 行 处 理 器 中 多 种 连续 的 读 取 和 执行 指令 ， 由 于 数据 在 一 个 处 理 
阶段 可 以 使 用 多 次 ， 因 此 显著 减少 了 数据 的 传输 过 程 。 我 们 可 以 看 到 ， 它 和 脉动 
阵列 (Kung 1988) 通过 复 用 处 理 器 中 可 用 的 数据 来 减少 通信 带宽 的 思想 相似 。 

下 面 通 过 几 个 示例 来 展现 Imagine 处 理 器 的 能 力 。 在 7 x7 的 卷 积 运算 中 ， 
Khailany 4$ A (Khailany 等 2001) 演示 了 Imagine 的 处 理 过 程 : 将 数据 从 外 部 
RAM 中 按 行 装载 像素 ， 然 后 将 这 些 像素 和 先前 存储 的 数据 〈 即 从 SRF 加 载 的 累 
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图 4-10 Imagine 流 处 理 器 架构 ( Khailany 等 2001 ) 


积 中 间 乘 积 ) 一 起 分 别 分 发 到 8 个 处 理 器 。 一 直 执 行 这 些 运算 直到 全 部 完成 。 
该 示例 展示 了 Imagine 的 几 个 重要 特性 ， 包 括 高 效 装载 数据 的 能 力 、 处 理 引擎 中 
复 用 数据 及 处 理 引 擎 中 有 效 利用 并 发 机 制 等 ， 使 得 Imagine 能 够 达到 较 高 的 性 能 
水 平 。 

由 于 目前 很 多 应 用 的 核心 图 像 块 尺寸 都 是 8 x8 的 图 像 块 ， 并 且 能 够 有 效 地 
匹配 处 理 需 求 和 计算 需求 ， 因 此 很 自然 地 选择 8 个 处 理 器 。 对 于 较 小 的 图 像 处 理 
操作 ， 比 如 多 种 图 像 处 理 运算 中 使 用 的 3 x3 图 像 块 (如 Sobel 和 Laplace 滤波 
器 ) ， 无 法 发 挥 性 能 优势 。 

目前 有 一 种 分 层 的 方法 用 于 优化 带宽 ， 最 高 带宽 能 力 预 留 给 处 理 引擎 ， 达 到 
544GB/s, SRF 带宽 为 32GB/s， 到 SDRAM 的 片 外 带宽 为 2.67GB/s。 在 Imagine 
处 理 器 中 ， 采 用 了 很 多 原本 用 来 获得 FPGA 实现 (生成 详细 的 电路 结构 ) 的 性 
能 增益 的 优化 ， 但 仅 局 限于 部 分 应 用 。 如 第 一 章 所 讨论 的 ， 从 最 新 的 FPGA 系列 
器 件 来 看 ， 目 前 的 趋势 是 开发 专门 针对 部 分 应 用 的 器 件 。 

2. Storm 流 处 理 器 

流 处 理 器 的 概念 由 Stream Processors 公司 (SPI) 率先 在 其 Storm 处 理 器 中 应 
FA, SPI 是 一 家 从 斯 坦 福 研究 机 构 独立 出 来 的 无 晶 圆 三 半 导体 公司 。Storm - 1 处 
理 器 系列 被 认为 对 其 他 DSP 技术 做 了 很 大 的 改进 ， 见 表 4-3。 
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表 4-3 Storm 流 处 理 器 与 其 他 处 理 器 比较 (Stream Processors Inc. 2007 ) 


供应 商 设备 SPI Storm -1 Xilinx Virtex™ -5 Altera Stratix II Tono sec 
Mn SPI6HP 5VSX35T EP3SL70 


构架 FPGA FPGA DSP 
时 钟 频 率 550MHz 300MHz 1GHz 
GMACS/ 芯 片 106 86 8 


设计 方式 软件 可 编程 可 重 置 硬件 可 重 置 硬件 软件 可 编程 


Storm- 1 处 理 器 包括 一 个 处 理 系统 任务 的 主 CPU ( 即 系统 MIPS) 和 一 个 拥 
有 DSP MIPS 的 DSP 协 处 理 器 子 系统 ， 后 者 负责 运行 向 数据 并 行 单元 (Data Par- 
allel Unit, DPU) 发 起 核 函 数 调用 的 主线 程 。DPU 由 一 个 数据 并 行 单元 组 成 ， 它 
含有 16 个 或 者 8 个 数据 并 行 执行 通道 〈 依 赖 于 器 件 的 选择 ) ， 而 Imagine 处 理 器 
只 有 8 个 数据 并 行 执行 通道 。 每 个 通道 或 是 徐 中 有 5 个 ALU 单元 ， 另 外 还 有 一 
个 指令 获取 单元 和 获取 SRF 的 VLIW 序列 发 生 器 。DPU 调度 器 通过 接收 的 核 函 
数 调用 指令 来 管理 运行 期 内 核 及 流 负荷 。 与 Imagine 处 理 器 相同 的 是 ， 一 个 核 函 
数 每 次 都 是 跨 通道 执行 ， 对 存储 在 通道 寄存 器 内 的 局 部 流 数据 进行 操作 。 每 个 通 
道 有 一 组 VLIW ALU 和 分 布 式 的 操作 数 寄 存 器 堆 (Operand Register File, ORF) , 
从 而 能 够 处 理 大 量 的 数据 并 且 提 供 较 大 的 局 部 带宽 。 通 道 开 关 是 通道 间 高 速 存 取 
的 全 交叉 总 线 ， 它 在 编译 时 被 调用 ， 可 以 认为 是 Imagine 处 理 器 的 SRF 基本 总 线 
交互 的 增强 。 在 本 书写 作 时 ， 该 处 理 器 的 价格 为 149 美元 /10000 块 。 

从 性 能 图 上 可 以 看 到 ，Storm- 1 处 理 器 的 性 能 显著 地 超越 了 TI 公司 的 处 理 器 
的 性 能 ， 因 为 它 在 开发 过 程 中 一 开始 就 采用 并 行 化 技术 ， 并 且 通 过 简单 的 编程 模 
块 来 挖掘 并 行 化 的 能 力 。 然 而 ， 在 较 低 的 处 理 速度 下 ，FPCA 的 性 能 也 相差 不 
大 。 表 4-3 再 一 次 强调 了 利用 电路 结构 的 优化 来 获取 性 能 的 重要 性 。 

3. Clearspeed CSX600 处 理 器 

CSX600 (Clearspeed Tech. ple 2006) 是 Clearspeed ZS F] FFA MHRA SOUR TE 
并 行 数据 处 理 的 协同 处 理 器 。 其 技术 主要 针对 精细 运算 ， 比 如 矩阵 和 矢量 运算 、 
展开 的 独立 循环 和 多 个 并 行 数据 通道 ， 上 述 运算 都 可 以 通过 并 行 处 理 获得 增益 ， 
也 是 经 典 的 SIMD 计算 。 目 前 来 看 ， 架 构 的 发 展 主要 面向 高 性 能 计算 型 应 用 ， 为 
基本 线性 几何 子 程序 (Basic Linear Algebra Subprogram, BLAS) 库 函 数 ， 执 行 线 
性 几何 运算 ， 如 矢量 和 矩阵 相 乘 等 子 程序 的 标准 应 用 编程 接口 ， 以 及 数值 计算 软 
件 库 LAPACK (Linear Algebra Package) 等 提升 了 性 能 。 本 书 列举 了 几 个 示例 ， 
比如 提高 Matlab 仿真 速度 及 在 分 子 动态 学 力 场 分 析 的 应 用 (Amber 9 Sander 隐 式 
TE). BRE C 语言 编写 ， 但 可 以 利用 不 同 的 库 函 数 将 其 转化 为 C + + 和 For- 
tran 应 用 ， 从 而 可 以 与 处 理 器 进行 交互 。 
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CSX600 能 支持 每 秒 250 亿 次 单 精度 或 双 精 度 浮 点 运算 ,平均 功 耗 约 为 10W。 
其 架构 采用 64 位 寻 址 ， 因 此 通过 局 部 错误 检查 和 纠正 (Error Checking and Cor- 
recting, ECC) 保护 的 内 存 接口 可 以 访问 数 千 兆 字 节 的 DDR2 SDRAM， 进 而 提供 
必要 的 内 存 带 宽 。CSX600 架构 的 中 央 是 一 个 处 理 器 引擎 ， 称 为 多 线程 阵列 处 理 
器 (Multi- Threaded Array Processor，MTAP)， 因 此 可 以 在 一 个 核 DSP 函数 中 做 
并 行 计算 。 另 外 ， 该 架构 采用 ClearConnectTM 的 片上 网 络 技术 来 解决 处 理 器 引擎 
获取 或 输出 数据 的 带宽 需求 。 

CSX600 的 架构 包括 一 个 MTAP 处 理 器 核 ， 该 处 理 核 由 96 个 高 性 能 的 聚合 
PE 核 组 成 ， 每 个 PE 核 都 有 6KB 的 专用 局 部 存储 器 。 此 外 ，CSX600 还 包含 
128KB 的 片上 便签 存储 器 ， 一 个 外 部 64 位 DDR2 DRAM 接口 ， 通 过 ClearConnect 
片上 网 络 连接 的 64 位 虚拟 而 物理 上 是 48 位 寻 址 的 缓存 ， 以 及 多 种 指令 和 数据 组 
ff. RA PE 的 结构 如 图 4-11 所 示 。 其 中 一 部 分 PE 执行 一 次 性 的 运算 ， 并 且 执 
行 分 支 和 线程 切换 等 程序 控制 ， 而 高 度 并 行 计算 的 处 理 则 在 处 理 核 的 其 他 部 分 


完成 。 





图 4-11 Clearspeed CSX 聚合 执行 单元 


4.7.3 MIMD 架构 


MIMD 类 型 的 架构 由 一 组 通过 多 种 网 络 拓扑 连接 的 处 理 有 组 成 ， 每 个 处 理 器 
有 各 自控 制 单 元 用 来 发 布 指令 。 对 不 同 MIMD 架构 进行 分 类 的 一 种 主要 方法 是 基 
于 存储 器 组 织 方式 。 其 中 一 种 是 共享 存储 器 模型 ， 即 一 组 处 理 器 均等 地 共享 存储 
器 空间 并 且 通 过 读 写 共享 存储 器 的 方式 通信 。 前 提 条 件 是 所 有 处 理 器 都 有 相同 的 
机 会 访问 存储 器 。 另 一 种 是 分 布 式 存储 器 模型 ， 处 理 器 有 各 自 的 局 部 存储 器 ， 处 
理 器 间 通 信 通 过 消息 传递 方式 实现 (Sima Æ 1997) 。 由 于 每 个 处 理 器 都 有 主 通 
道 存储 器 ， 因 此 避免 了 存储 器 冲突 。 此 外 ， 这 种 方式 扩展 性 更 好 ， 因 为 共享 存储 
器 架构 中 的 连接 网 络 限制 了 存储 器 访问 带宽 。 由 于 可 扩展 性 方面 的 限制 ， 共 享 存 
储 器 MIMD 架构 中 的 处 理 器 数量 少 于 分 布 式 处 理 器 MIMD 架构 中 处 理 器 的 数量 ， 
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后 者 可 扩展 到 大 量 并 行 的 计算 机 。 

计算 机 群 可 以 看 作 一 种 分 布 式 存储 器 MIMD 架构 ， 其 中 ， 大 量 计算 机 (PC 
机 、 工 作 站 或 者 对 称 式 多 处 理 器 系统 (Symmetric Multiprocessor, SMP) 通过 高 
速 互 连 技术 ， 例 如 Myrinet (Boden 等 1995) 实现 网 络 连接 。 与 大 量 并 行 计 算 
机 相 比 ， 虽 然 这 种 架构 的 连接 速度 慢 很 多 ， 但 它 提 供 了 一 种 低 成 本 的 解决 方案 。 

TILE64™ 多 核 系 统 

TILE64™ 是 最 近 上 市 的 一 款 多 核 处 理 器 ， 由 64 个 相同 的 处 理 器 核 组 成 ， 我 
们 称 之 为 “ 贴 片 "， 通 过 具有 专利 权 的 片上 网 络 拓扑 Mesh™ 进行 连接 。TILE64™ 
架构 如 图 4-12 所 示 。 每 一 块 贴 片 都 是 有 完整 功能 的 处 理 器 ， 包 括 集成 的 一 级 
(LI) 缓存 和 二 级 (L2) 缓存 ， 以 及 将 各 个 贴 片 连接 成 网 状 的 非 阻塞 式 开关 。 存 
储 器 局 部 化 意味 着 每 一 块 贴 片 都 可 以 独立 运行 各 自 的 操作 系统 ， 或 者 多 个 贴 片 联 
合 运 行 一 个 多 处 理 操作 系统 ， 比 如 SMP Linux (Tilera Corp. 2007) 。 


4.8 专用 ASIC 和 FPGA 解决 方案 


迄今 为 止 ，DSP 技术 所 能 提供 的 能 力 都 是 以 预先 定义 的 架构 能 力 展现 的 。 专 
用 ASIC (大 量 应 用 于 FPGA 的 实现 ) 主要 的 吸引 力 在 于 其 架构 可 以 根据 算法 需 
求 来 开发 ， 使 并 行 化 程度 与 性 能 需求 匹配 。 例 如 ， 前 面 所 讨论 的 128 抽 头 的 FIR 
滤波 器 。 在 FPGA 和 ASIC 实现 中 ， 有 可 能 分 别 给 每 次 乘法 和 加 法 使 用 专门 的 乘 
法 器 和 加 法 器 ， 因 此 能 够 实现 完全 的 并 行 运算 。 并 且 ， 为 了 加 速 计 算 ， 还 可 以 采 
用 流水 线 方式 ， 在 实际 中 ,重复 N 次 可 以 将 速度 提高 N 倍 。 本 书 第 8 章 阐 述 了 
如 何 按照 性 能 需求 来 设计 那些 必要 的 硬件 。 

当 考虑 可 编程 能 力 时 ， 为 了 验证 技术 的 可 行 性 ，ASIC 解决 方案 不 会 通过 添 
加 额外 的 硬件 来 提供 可 编程 能 力 ， 是 因为 性 能 (速度 、 面 积 和 功率 ) 可 能 占 主 
要 因素 。 此 外 ， 人 额外 的 可 编程 能 力 会 增加 测试 与 验证 次 数 。 非 重复 性 工程 (Non - 
recurrent Enginerring, NRE) 成 本 就 是 指 那些 批量 生产 原型 时 超过 十 亿美 元 的 成 
本 。 因 此 ,使 用 专用 ASIC 硬件 的 观点 逐渐 具有 吸引 力 。 

从 本 质 上 来 说 ，FPGA 解决 方案 通过 给 予 设计 者 部 分 可 编程 空间 来 避免 这 些 
高 NRE 成 本 。 尽 管 面 积 、 速 度 ， 特 别 是 功率 性 能 不 具有 吸引 力 ， 但 提供 部 分 可 
编程 或 可 配置 空间 的 思想 避免 了 NRE 成 本 问题 ， 并 且 显 著 降 低 了 设计 风险 
因为 留 有 可 配置 的 空间 ， 所 以 可 以 校正 设计 过 程 中 的 错误 。 
”粗略 地 说 ，FPGA 可 以 认为 由 下 面 3 部 分 组 成 : 

1) 可 编程 逻辑 单元 ， 可 通过 编程 实现 不 同 数字 运算 函数 ; 

2) 可 编程 连接 ， 连 接 不 同 模块 ; 
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3) 可 编程 O 引 脚 。 

此 助 于 这 种 可 编程 能 力 ， 开 发 者 可 以 修改 FPGA 上 已 经 实现 的 功能 ， 或 者 通 
过 不 同 的 方式 连接 FPGA 上 已 有 的 功能 模块 ， 甚 至 通过 不 同 的 方式 连接 不 同 FP- 
GA 上 的 电路 。 在 早期 ， 改 变相 互 连 接 的 能 力 是 主要 的 吸引 力 ， 但 由 于 FPGA 变 
得 越 来 越 复杂 ， 因 此 这 种 能 力 仅 仅 作为 改变 实际 功能 的 补充 。 从 高 效 设计 的 角度 
考虑 ， 主 要 目标 是 以 最 有 效 的 方式 利用 大 量 的 处 理 能 力 ， 从 而 能 够 在 性 能 上 超越 
其 他 技术 。 比 如 ASIC， 它 要 求 设 计 合适 的 电路 结构 来 充分 利用 底层 硬件 资源 。 
长 期 以 来 ， 它 都 被 当成 是 一 种 硬件 设计 过 程 ， 因 为 与 软件 设计 相 比 ， 需 要 投入 更 
多 的 时 间 和 精力 。 然 而 ， 本 书后 面 将 讨论 的 一 些 示例 所 展现 的 性 能 优势 非常 明 
显 ， 需 要 在 设计 过 程 中 考虑 ， 这 也 是 本 书 的 重点 。 


4.9 总 结 


本 章 重点 讲述 了 实现 DSP 复杂 系统 的 多 种 不 同 技术 ， 从 速度 、 功 耗 和 面积 
上 进行 了 比较 ， 虽然 面积 的 比较 对 于 处 理 器 实现 来 说 难以 确定 。 本 章 还 对 这 些 技 
术 的 可 编程 能 力 进行 了 探讨 ， 着 重 强 调 了 底层 芯片 架构 会 限制 性 能 。 事 实 上 ， 可 
以 为 ASIC 和 FPGA 技术 设计 专用 电路 架构 ， 从 而 可 以 获得 较 高 的 性 能 。 我 们 其 
至 可 以 认为 ，FPGCA 可 更 改 的 电路 架构 及 其 可 编程 能 力 是 FPGA 技术 在 某 些 系统 
实现 中 具有 吸引 力 的 两 大 因素 。 

尽管 本 章 主要 描述 不 同 的 技术 并 进行 了 对 比 ， 但 实际 中 ， 现 代 DSP 系统 常 
常 将 这 些 不 同 平台 综合 到 一 起 。 目 前 ， 很 多 公司 提供 的 复杂 DSP 板 同时 包含 微 
处 理 器 、DSP 微 处 理 器 和 FPGA， 有 的 公司 ， 比 如 IBM 提供 嵌入 式 FPGA 设备 。 
由 于 不 同 平台 适合 不 同 的 计算 需求 ， 因 此 这 种 实现 方式 也 不 足 为 怪 。 当 前 的 DSP 
微 处 理 器 及 下 一 章 将 介绍 的 最 新 FPCA 技术 可 以 看 作 是 包括 多 个 硬件 组 件 的 异 构 
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第 5 章 当前 的 FPGA 技术 


5.1 引言 


通过 在 前 面 章节 对 不 同 技 术 的 详细 介绍 ， 我 们 对 具体 技术 的 选择 变 得 清晰 
了 ， 而 且 这 些 技术 所 包含 的 设计 方法 显示 了 所 述 的 专用 DSP 系统 能 达到 的 性 能 
等 级 。 比 如 ， 使 用 简单 DSP 微 控 制 器 表明 这 是 一 个 性 能 要 求 相 对 低 的 DSP 系统 ， 
也 意味 着 用 户 需 要 为 此 设计 C 或 者 C + + 代码 。 但是， 用 户 还 可 以 使 用 Matlab 
或 Labview 来 满足 诸如 系统 需要 的 字 长 或 数量 等 设计 环境 要 求 ， 也 可 以 通过 所 述 
设计 方法 与 软件 例 程 来 产生 微 控 制 器 的 DSP 源码 。 当 然 有 人 会 提出 通过 这 种 方 
法 产生 代码 的 效率 不 高 ， 但 是 这 种 方法 足以 满足 应 用 的 性 能 要 求 ， 同 时 仍然 使 用 
较 实 用 的 低 功 耗 微 控 制 器 ， 这 也 减少 了 设计 时 间 ， 满 足 了 成 本 要 求 。 

这 个 设计 方法 适用 于 所 有 的 “处 理 器 ”类 型 平台 ， 但 是 可 能 为 达到 必要 的 
性 能 ， 需 要 人 工 开 发 专用 C 代码 。 这 在 一 些 应 用 中 很 必要 ， 如 性 能 要 求 严格 的 
应 用 (而 且 不 能 通过 提高 平台 的 计算 复杂 性 来 满足 )， 或 者 具体 结构 的 专用 功能 
不 能 在 高 级 工具 环境 里 很 好 支持 的 应 用 。 这 对 较 新 的 可 重 配置 或 者 专用 处 理 器 尤 
为 典型 ， 比 如 Storm Stream 处 理 器 。 很 明显 ， 在 这 些 情况 下 选择 该 平台 是 因为 它 
在 面积 -速度 — 功率 方面 有 着 优越 的 性 能 。 平 台 的 吸引 力 表现 在 具体 特征 方面 ， 
比如 一 些 商 业 平 台 的 多 重 MAC 单元 ， 或 者 专用 DSP 平台 的 专 有 处 理 功 能 ， 又 比 
如 Storm Stream 处 理 器 的 数据 并 行 单元 。 在 这 些 情 况 下 ， 为 了 利用 技术 的 具体 架 
构 特 色 ， 用 户 就 必须 在 设计 方便 上 做 出 让 步 。 

在 SoC 的 概念 下 ， 用 户 通过 创造 电路 架构 来 最 大 限度 满足 具体 系统 的 性 能 要 
求 这 一 想法 是 很 极端 的 。 虽 然 用 户 能 创造 出 最 终 满足 DSP 系统 要 求 的 电路 架构 ， 
但 是 这 一 想法 受到 创建 最 终 架 构 实 际 情况 的 限制 。 因 而 ， 包 含 具 体现 有 架构 的 设 
计 方 式 或 利用 系列 现 有 构建 模块 的 设计 方式 开始 成 为 主导 。 这 体现 了 一 种 SoC 设 
计 风 格 ， 即 利用 有 限 的 功能 在 合理 时 间 内 设计 出 一 个 系统 。 

正如 4. 8 节 介绍 的 ， 这 是 由 一 个 FPGA 平台 实际 提供 的 。FPGA 已 经 不 再 是 
一 个 “胶合 逻辑 ”平台 ， 而 成 为 了 一 个 能 帮助 用 户 创 造 DSP 系统 组 件 集 合 的 平 
台 。 本 章 将 详细 讲解 如 何 使 用 FPCA 技术 制作 DSP 系统 。 购 买 产品 的 全 部 细节 可 
以 在 各 生产 厂商 的 设计 说 明文 档 中 查 到 ， 比 如 Xilinx, Altera, Lattice 和 Atmel, 
本 章 只 强调 了 其 中 的 重要 特征 ， 突 出 讲解 一 些 对 于 DSP 实现 很 重要 的 方面 。 同 
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时 每 个 生产 厂商 都 有 一 系列 使 用 不 同 技术 的 产品 ， 本 章 重 点 讲解 来 自 Altera 的 
Straix® I #3 A Xilinx 的 VirtexT -5FPGA 系列 等 最 新 的 能 买 到 的 产品 。 此 外 ， 
还 将 介绍 不 同 于 其 他 产品 的 一 些 特 有 技术 ， 比 如 来 自 Acte 的 基于 闪存 技术 的 
Pro ASICELUSFPCA 技术 和 来 自 Lattice 的 由 CPLD 概念 〈 相 比 基 于 LUT HR) 扩 
展 的 ispXPLD™5000MX 系列 技术 。 

本 章 从 5.2 节 中 FPGA 的 简要 历史 角度 开始 ， 描 述 它 们 怎样 从 一 个 细 颗 粒 化 
技术 发 展 为 一 个 有 着 复杂 系统 模块 的 技术 。5. 3 节 将 介绍 Altera 的 FPGA 系列 ， 
特别 讲解 Stratix® II FPGA 系列 ， 因 为 它 是 该 公司 最 强大 的 FPGA 系列 的 代表 。 
对 MAX@7000 FPGA 也 做 了 简单 介绍 ， 因 为 它 代 表 了 PLD 概念 的 革新 ，Altera 最 
初 的 可 编程 硬件 产品 正 是 基于 这 种 架构 。5. 4 节 将 接着 介绍 来 自 Xilinx 的 FPGA 
技术 产品 ， 特 别 是 Virtex™FPGA 系列 。 这 次 ， 我 们 主要 讲解 这 一 技术 最 新 的 FP- 
GA 版 本 ， 称 之 为 Virtex™-5FPGA 系列 。 与 Altera 和 Xilinx 一 起 ， 我 们 重点 关注 
与 DSP 系统 密切 相关 的 硬件 方面 ， 但 也 尽力 照顾 到 L/O 速度 、 定 时 策略 和 存储 
器 结构 的 其 他 方面 ， 因 为 它们 也 是 决定 系统 整体 性 能 的 重要 方面 。 

Actel, Atmel 和 Lattice 也 提出 过 许多 其 他 技术 ， 而 且 它 们 的 具体 特征 与 某 些 
市 场 需求 非常 相关 。 比 如 ，Lattice 提出 的 采用 EPROM 非 易 失 性 的 单元 组 合 来 
存储 设备 配置 的 ispXPLD™5000MX 系列 及 采用 SRAM 技术 来 完成 逻辑 实现 ; 这 
些 将 在 5.5 节 介 绍 。Actel@ 提 出 了 许多 基于 闪存 和 反 熔 丝 技 术 的 FPGA 技术 。 最 
初 的 Actel 凭借 一 种 反 熔 丝 技术 出 名 ， 而 且 它 现在 仍然 使 用 这 种 技术 ， 也 就 是 反 
熔 丝 SX FPGA 技术 ， 这 将 在 5. 6. 1 节 中 介绍 。5. 6. 2 节 将 介绍 Pro ASICS 闪存 
FPGA 技术 。 这 种 方法 允许 设备 储存 它 的 程序 ， 避 免 了 像 基 于 SRAM 的 技术 中 对 
编程 设备 的 需要 。 还 将 介绍 该 公司 最 新 提出 的 代表 第 一 个 复合 信号 FPGA 的 Fu- 
sion™M 技 术 。 最 后 将 介绍 Ateml@ 的 相对 古老 的 AT40K FPGA 技术 ， 它 提出 了 部 分 
可 重 构 解 决 方案 。5. 8 节 将 对 本 章 进行 小 结 。 


5.2 FPGA 的 发 展 


在 20 世纪 70 年 代 ， 逻 辑 系统 是 通过 由 TTL 逻辑 芯片 组 成 的 PCB 板 来 创建 
的 。 但 是 ， 随 着 功能 的 变 强 ， 逻 辑 规 模 的 增长 ， 更 重要 的 是 ， 逻 辑 电 平 的 数量 的 
增加 ， 设 计 速 度 减 慢 了 ， 从 而 限制 了 系统 的 发 展 。 最 典型 的 例子 是 ， 设 计 者 使 用 
基于 Karnaugh 映射 或 Quine- McCluskey 最 小 化 等 逻辑 最 小 化 的 技术 来 创建 基于 多 
个 与 门 和 一 个 对 它们 求 和 的 或 门 创建 乘积 模块 等 各 种 产品 。 

1978 年 ，Monolithic Memories 提出 制作 一 个 架构 来 实现 这 个 功能 ， 并 利用 可 
编程 阵列 逻辑 (Programmable Array Logic, PAL) 设备 做 了 验证 。PAL 包括 一 个 
固定 或 矩阵 及 与 其 连接 的 一 个 可 编程 与 矩阵 ， 它 可 以 直接 实现 最 小 化 表达 式 的 乘 
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积 和 结构 。 与 和 或 矩阵 概念 成 为 了 可 编程 逻辑 设备 的 关键 特色 ， 表 5-1 给 出 了 一 
个 简单 的 分 类 。 如 图 5-1 所 示 ， 固 定 的 与 平面 (有效 的 一 种 译 码 ) 和 可 编程 或 
平面 与 只 读 存储 器 (Read Only Memory, ROM) 拥有 同样 的 结构 。 在 这 种 情况 
下 ， 这 种 结构 可 以 被 认为 具有 存储 4 个 (通常 表示 为 2") 2- (或 者 m- ) bit HA 
量 ， 如 图 5-2 所 示 。 地 址 输入 译 码 器 用 来 减少 连接 存储 器 的 引 肢 数量， 存储 区 或 
存储 阵列 用 于 存储 数据 。 译 码 器 使 用 与 门生 成 不 同 的 地 址 线 ， 然 后 使 用 或 门 实现 
输出 求 和 ， 这 实现 了 布尔 运算 的 与 或 结构 。 通 常 ， 一 个 2" bit ROM 能 实现 任何 
输入 的 布尔 运算 ， 因 此 一 个 4 输入 ROM 或 LUT 成 为 了 最 早 FPGA 的 核心 组 件 ， 
即 Xilinx XC2000 FPGA, 4 输入 LUT 在 实现 芯片 面积 的 有 效 利 用 方面 又 足够 小 ， 
在 实现 一 系列 合理 功能 方面 又 足够 大 。 在 需要 大 量 输入 时 ， 可 以 通过 串 接 或 并 接 
LUT 输入 实现 扩容 。 这 会 使 实现 速度 更 慢 ， 不 过 ， 比 起 使 用 更 大 规模 的 LUT， 这 
个 方案 利用 率 更 高 。 


” 表 5-1 PLD 类 型 





图 5-1 ROM 详细 结构 


PLD 结构 有 许多 的 优点 。 它 明显 适用 于 通过 逻辑 最 小 化 技术 创建 乘积 和 的 过 
程 。 这 一 功能 可 以 被 加 载 到 PLD 设备 中 ， 如 果 没 有 足够 的 可 用 乘法 单元 ， 则 问 
题 会 被 反馈 到 第 二 个 PLD 阶段 。 另 一 个 主要 的 优点 是 电路 延 时 是 确定 的 ， 包 含 
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一 级 逻辑 电 平 或 两 级 等 。 但 是 ， 真 
正 的 优点 是 可 编程 性 ， 这 降低 了 使 
用 硬件 PCB 开发 的 危险 性 ， 这 个 i ES 
优点 在 于 允许 通过 调节 PLD 8938 
辑 实现 来 修正 可 能 的 错误 。 但 是 ， 
随 着 集成 度 的 增长 ， 把 PLD 作为 
结构 单元 的 想法 成 为 了 一 个 具有 吸 
引力 的 FPGA 建议 ， 这 在 早先 的 ESA- SUM S 

Altera 产品 中 有 体现 ， 在 目前 的 MAX 7000 设备 系列 中 也 有 体现 。 前 边 已 经 提 及 ， 
Xilinx 的 优势 在 于 ROM 或 者 LUT 方式 。 


5.2.1 FPGA 的 早期 结构 


FPGA 的 早期 产品 包含 了 一 个 Manhattan 类 型 的 结构 ， 该 结构 包含 了 简单 的 
逻辑 结构 单元 ， 每 个 单元 都 通过 可 编程 的 连接 连 在 一 起 。 因 此 FPGA 具有 如 下 
特点 : 

1) 可 以 通过 编程 来 实现 不 同 数值 函数 的 可 编程 逻辑 单元 ; 

2) 可 编程 的 连接 允许 不 同 模块 互联 ; 

3) 可 编程 的 IO 引 脚 。 

FPGA 经 历 了 一 个 理想 的 演进 过 程 ， 最 初 FPGA 被 看 成 是 简单 的 胶合 逻辑 ， 
之 后 成 为 提供 元 余 、 防 止 PCB 电路 板 制作 错误 的 关键 技术 ， 并 且 FPGA 组 件 可 
以 实现 可 编程 互 连 ， 甚 至 具有 纠正 不 正确 系统 设计 带 来 的 错误 的 机 制 。 但 是 ， 摩 
尔 定律 描述 的 技术 演进 过 程 使 FPGA 供应 商 面临 扩展 性 问题 。 在 20 世纪 80 年 
代 ，FPGA 供应 商 在 可 编程 模块 的 数量 、 互 连 的 阶段 数 及 WO 数量 方面 进行 了 浓 
缩 扩展 。 但 是 ， 这 个 方法 有 些 局 限 ， 因 为 浓缩 使 互 连 成 为 了 主要 问题 。 同 时 ， 随 
着 技术 革新 ， 另 一 种 浓缩 方法 成 为 可 能 ， 即 专用 硬件 单元 也 可 以 被 集成 进去 ， 比 
如 专用 乘法 器 及 最 新 的 处 理 器 。 此 外 ， 系 统 网 络 连接 的 问题 可 以 通过 集成 SER- 
DES 和 Rapid 1/0 形式 的 专用 网 络 连接 来 缓 减 。 

技术 革新 使 FPCA 技术 内 涵 更 加 丰富 。 

(1) 技术 争论 。 关 于 哪个 技术 更 有 效率 的 争论 通过 摩尔 定律 得 以 平息 。 早 
期 出 现 了 三 种 不 同 的 FPGA 技术 ， 即 传统 的 SRAM 、 反 熔 丝 和 EPROM RE’ PROM 
技术 。 后 两 种 技术 都 需要 特殊 的 工艺 步 又， 要 么 需要 制作 反 熔 丝 链接 ， 要 么 需要 
特制 晶体 管 实现 EPROM 或 已 PROM。 技 术 进 步 过 程 选择 了 SRAM 技术 ， 因 为 制 
造 开 始 标准 化 ， 这 对 Altera 和 Xilinx 非常 重要 ， 因 为 FPGA 的 制造 可 以 外 包 ， 也 
不 必 与 制造 公司 做 具体 专业 技术 交流 。 的 确 ， 值 得 注意 的 是 硅 制 造 商 现在 将 
FPGA 技 术 作为 检测 它们 制造 设备 的 最 先进 技术 。 





mm 输出 线 
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(2) 可 编程 资源 功能 。 在 用 于 构造 系统 的 基础 逻辑 模块 资源 方面 ， 存 在 大 
量 不 同 产 品 。 像 Algotrinix, Crosspoint 和 Plessey 公司 都 已 经 提出 了 自己 的 FPGA, 
它们 的 产品 布 满 了 细 粒 度 的 简单 逻辑 门 或 数据 选择 器 ， 提 供 了 大 量 逻 辑 资源 。 正 
如 第 1 章 所 述 ， 随 着 互 连 在 决定 系统 性 能 里 扮演 的 角色 越 来 越 重要 ， 这 些 设备 就 
已 注定 衰退 。 粗 粒度 技术 也 有 大 量 方案 ， 即 PLD 类 型 的 结构 或 LUT 结构 。PLD 
结构 与 逻辑 实现 相关 ， 而 LUT 更 加 有 灵活 性 并 且 是 程序 员 和 工程 师 已 经 能 够 理 
解 的 概念 。 纵 观 目前 的 FPGA 产品 ， 很 明显 可 以 看 出 基于 LUT 的 结构 主宰 了 技 
术 的 革新 ，Xilinx Virtex™-5 技术 中 LUT 的 大 小 从 4 输入 增长 为 5/6 输入 ， 而 Al- 
tera Stratix@ 亚 系列 已 经 增长 到 了 6 输入 。 

(3) FPGA 市 场 的 变化 。 随 着 FPGA 复杂 度 的 增加 ，FPCA 已 经 从 胶合 逻辑 
组 件 发 展 为 复杂 系统 的 主要 组 件 ， 与 DSP 一 起 成 为 了 这 本 书 的 讲述 对 象 。 同 时 ， 
人 们 应 该 能 够 注意 到 FPGA 是 电信 行业 一 个 重要 的 组 成 部 分 。 这 意味 着 FPGA Bt 
应 商 必须 在 与 类 似 产品 竞争 方面 具有 优势 ， 首 先 面 对 的 是 DSP 处 理 器 开发 商 ， 
比如 TI Ze), Analog 和 多 核 开 发 商 。 前 面 的 章节 已 经 介绍 了 这 些 技术 的 某 些 
方面 。 

(4) 工具 流 。 最 初 ，FPGA 并 不 复杂 ， 直 到 20 世纪 90 年 代 中 期 ， 很 平常 的 
设计 师 就 能 完成 手动 设计 布置 。 第 一 个 主要 的 开发 工具 是 自动 化 布局 和 路 由 工 
具 ， 它 仍然 在 供应 商 的 工具 流 中 扮演 一 个 主要 的 角色 。 但 是 ， 需 要 系统 级 设计 工 
具 来 处 理 最 新 的 设计 挑战 这 一 理念 逐渐 被 公认 。 因 此 ，FPGA 供应 商 已 经 开始 系 
统 级 设计 工具 的 研发 ， 除 了 来 自 工 具 供应 商 的 研发 的 系统 级 设计 工具 ， 还 有 Al- 
tera 的 DSP 和 SOPC 生成 器 ， 以 及 Xilinx 的 DSP 和 AccelDSP™ 的 系统 生成 器 。 这 
是 一 个 日 益 突 出 的 问题 ， 因 为 工具 有 滞后 于 技术 发 展 的 趋势 ， 也 是 这 本 书 中 的 一 
个 主题 。 

现 阶 段 ，FPGA 代表 着 系统 平台 。 从 两 个 主要 的 供应 商 可 以 看 到 ， 他 们 现在 
用 这 些 术 语 来 介绍 他 们 的 技术 : Xilinx 描述 他 们 的 Virtex™ 为 一 个 FPGA 平台 ; Al- 
tera 也 一 样 ， 认 为 他 们 的 高 端 产品 Stratis 焉 能 够 设计 整个 SoC。 因 此 ， 我 们 已 经 
从 本 节 开 始 突出 讲述 的 具有 由 可 编程 连接 连 起 来 的 可 编程 单元 的 时 代 ， 转 移 到 了 
复杂 的 、 可 编程 的 SoC 设备 ， 它 包含 了 大 量 的 所 谓 专用 DSP 处 理 器 模块 、 软 处 
理 器 引擎 及 硬 处 理 器 引擎 等 关键 组 件 。 


5.3 Altera 的 FPGA 技术 
Altera 是 两 个 主要 的 FPGA 公司 之 一 ， 而 且 他 们 最 初 的 基于 PLD 结构 的 架构 


在 不 断 升 级 ， 这 在 前 面 的 章节 中 介绍 过 了 。 它 目前 的 FPGA 系列 被 系统 化 到 了 几 
个 不 同 的 技术 中 ， 见 表 5-2。Altera 的 FPL 系列 被 系统 化 到 MAX@ 和 MAX® II A 
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列 的 可 配置 可 编程 逻辑 器 件 (Configurable Programmable Logic Device, CPLD); 
Cyclone 和 Cyclone [系列 的 低 功 率 FPGA; Stratix9 、Stratix@ I, Stratix® M 和 
Stratix® GX 系列 的 高 密度 FPGA; 结构 化 的 ASIC 解决 方法 HardCopy® 和 Hard- 
Copy@ IT 系列 。 本 节 将 主要 集中 于 讲述 Stratix® 亚 系 列 ， 因 为 我 们 主要 讲述 DSP 
及 超 高 性 能 的 DSP 应 用 ， 但 是 对 MAX 7000 系列 FPCA 也 会 简单 回顾 ， 因 为 它 是 
PLD 概念 的 典型 扩展 。 
1 35-2 Altera h) FPGA 系列 范围 
类 型 系列 简单 介绍 


有 着 许多 有 联系 的 基于 PLD 模块 的 技术 ， 其 中 的 系列 包 
括 MAX9 II, MAXÓ 3000A 和 MAX® 7000 


FPCA Cyclone 成 本 最 佳 化 ， 内 存 充足 的 FPGA 系列 
FPGA Stratix® 高 性 能 、 低 功 耗 的 FPGA 

有 着 高 速 的 连续 收发 器 的 FPGA， 这 种 收发 器 有 着 可 扩 
展 、 高 性 能 的 逻辑 阵列 

低 功 耗 、 高 性 能 的 结构 化 ASIC， 其 中 有 着 实现 Stratix II 
设备 的 输出 引 脚 、 密 度 和 架构 


CPLD MAX® I 


FPGA Stratix® GX 





结构 化 的 ASIC HardCopy® 


Altera FPGA 的 核心 模块 已 经 成 为 了 
逻辑 元 件 (Logic Element, LE), ll 
图 5-3 所 示 。 在 XC4000 和 早期 Virtex™ 
FPGA 系列 中 可 以 看 到 ， 这 与 Xilinx 的 逻 
辑 单 元 (Logic Cell, LC) 非常 相似 ， 虽 
然 Xilinx 最 近 已 经 转移 到 了 一 个 6 输入 
的 LUT。 这 个 单元 是 从 一 个 概念 建立 起 图 5-3 Altera LE 单元 的 框图 
来 的 ， 它 的 目的 是 要 实现 标准 化 的 组 合 
逻辑 功能 〈 仅 LUT) 、 延 时 或 移 位 功能 〈 仅 触发 器 ) ， 或 者 时 序 逻 辑 电路 CEA 
触发 器 的 组 合 逻 辑 )。 因 此 所 有 配置 、 连 同 各 种 多 路 技术 和 互连网 络 是 一 起 提供 
的 。4 输入 LUT 的 概念 出 现在 Rose 等 (1990) 中 ， 里 面 显示 了 该 规模 的 LUT 为 
大 量 不 同 的 实例 生产 最 好 的 面积 效率 。 使 用 这 些 4 输入 LUT， 通 过 使 用 可 编程 互 
连 来 连接 这 些 4 输入 的 LUT， 从 而 建立 更 大 的 LUT， 最 终 实现 各 种 组 合 逻 辑 。 正 
是 基于 这 种 方法 ， 我 们 为 加 法 器 的 实现 建立 了 一 个 快速 进位 的 逻辑 电路 ， 如 图 
3-3b 所 示 。 


5.3.1 MAX 7000 FPGA 技术 


图 5-4 所 示 为 基本 的 PLD 结构 ， 图 5-5 中 详细 给 出 每 个 PLD 模块 所 具有 的 
形式 。 这 个 框架 将 为 PLD 模块 经 可 编程 互 连 电路 连接 在 一 起 提供 解决 方案 ， 随 
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着 优势 不 断 展 现 ，PLD 的 重要 性 已 
经 在 更 大 范围 凸显 出 来 了 ， 通 过 使 
用 商业 PLD， 可 以 把 几 个 PLD 芯片 
连接 起 来 实现 更 复杂 的 逻辑 模块 ， 
而 优势 更 明显 的 是 基于 PLD 的 FP- 
GA 可 编程 互 连 体系 。 

来 自 Altera (Altera (@) Corp. 2000) 
的 MAX@ 和 MAX® II 系列 都 是 PLD 
技术 基本 概念 的 扩展 。 图 5-6 中 所 
示 为 MAX7000 的 架构 ， 该 架构 包含 图 5-4 普遍 的 基于 PLD 的 FPGA 的 架构 
了 16 个 宏 单 元 逻辑 阵列 模块 〈Logic 
Array Block, LAB) 、 一 个 允许 模块 间 相 互 连 接 及 时 钟 、 复 位 等 各 种 各 样 的 控制 
输入 连接 的 可 编程 互 连 阵列 (Programmable Interconnect Array，PIA) 、 人 允许 其 内 
部 接口 连接 到 LAB 和 PIA 的 IO 的 控制 模块 。4 个 专用 输入 允许 ， 比 如 时 钟 、 复 
位 和 使 能 等 高 速 的 全 局 控制 信号 注入 到 宏 单 元 和 I/O 引 脚 中 。 每 个 LAB 经 由 来 
自 PIA 的 36 个 一 般 逻 辑 信 号 直接 反馈 、 用 于 部 分 功能 寄存 器 的 全 局 控制 ， 以 及 
从 IO 引 脚 到 寄存 器 的 直接 连接 ， 这 些 都 是 为 了 片 外 和 片上 的 通信 延迟 最 小 化 。 








5-5 PLD 构造 模块 


图 5-7 所 示 的 MAX7000 宏 单 元 是 关键 的 计算 部 分 ， 它 用 于 时 序 逻 辑 运 算 或 
组 合 逻 辑 运算 。 它 包含 了 一 个 逻辑 阵列 、 一 个 乘积 项 选择 矩阵 和 一 个 可 编程 寄存 
器 。 这 个 逻辑 矩阵 允许 5 个 乘积 项 求 和 ， 而 且 乘积 项 选择 矩阵 允许 作为 每 个 宏 单 
元 中 一 个 单元 的 主要 输出 来 使 用 ， 因 此 能 实现 组 合 输出 ， 也 可 作为 一 个 更 大 的 逻 
辑 功能 组 成 部 分 ， 即 到 寄存 器 的 一 个 第 二 输入 ， 也 可 以 用 来 实现 时 序 逻 辑 电路 。 
触发 器 可 用 于 延 时 ， 或 者 作为 一 个 更 大 的 时 序 逻 辑 电 路 的 一 部 分 ， 也 可 以 使 用 各 
种 各 样 的 选择 功能 通过 复位 或 时 钟 实现 多 种 控制 。 这 个 单元 也 包含 了 可 共享 的 扩 
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图 5-6 Altera MAX7000E 和 MAX7000S 设备 框图 (由 Altera Corp. 许可 复制 ) 


展 器 和 并 行 扩展 器 ， 可 共享 的 扩展 器 允许 乘积 反 转 项 馈 入 到 逻辑 阵列 ， 而 并 行 扩 
展 器 允许 使 用 来 自 宏 单元 的 输入 创建 更 大 的 扇 人 逻辑 功能 。 

逻辑 信号 可 以 通过 PIA 在 LAB 之 间 传 输 ， 它 形成 一 个 可 编程 的 路 由 ， 从 而 
把 任何 信号 传输 到 设备 上 的 任何 地 方 。 该 路 由 是 通过 对 一 个 E PROM 单元 编程 
来 实现 的 ， 它 通过 控制 一 个 2 输入 与 门 的 其 中 一 个 输入 实现 断 开 或 使 能 连接 。 
PLD 的 一 个 关键 优势 成 为 FPCA 选择 PLD 的 重要 理由 ， 即 路 由 延迟 是 固定 的 ， 
不 像 后 面 讲 到 的 其 他 FPGA 架构 ， 它 们 的 延迟 是 累加 的 、 变 化 的 ， 而 且 有 着 路 径 
依赖 性 ， 并 且 会 在 时 序 闭合 〈 时 序 闭合 是 指 设计 中 所 有 单独 的 延迟 必须 满足 各 
种 时 间 约 束 ， 即 关键 路 径 和 边 到 边 时 延 的 约束 ) 时 造成 问题 。 因 此 这 使 时 延 容 
易 预 测 。 从 DSP 角度 看 ， 这 些 设备 的 使 用 有 限 ， 是 因为 主要 组 合 模块 只 能 用 于 
传统 逻辑 实现 。 


5.3.2 Stratix® III FPGA 系列 


Stratix® I FPGA 系列 做 了 许多 的 改变 。 针 对 DSP 中 以 数据 为 中 心 的 应 用 ， 
Stratix M E 系列 上 包含 了 充足 的 存储 器 和 乘法 器 。Stratix M E 系列 具有 许多 很 有 
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36 信 号 16 个 扩展 乘积 项 
表 PIA 


图 5-7 LAB 框图 (由 Altera Corp. 许可 复制 ) 


用 的 DSP 应 用 特征 ， 包 括 48000 ~ 338000 等 价 LE， 多 达 20Mbit 的 存储 器 和 许多 
高 速 的 DSP 模块 ， 具 有 专用 乘法 器 、 复 合 积 加 模块 和 FIR 滤波 器 功能 。 此 外 ， 
设备 也 提供 可 调节 的 电压 等 级 、 大 量 的 锁 相 环 (Phase Locked Loop, PLL) 和 各 
种 时 钟 。 5-8 所 示 为 Altera Stratix EP3SE50 的 平面 图 。 





DLL 模块 PLL 模 块 


图 5-8 Altera Stratix EP3SESO 平面 图 
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1. 自 适应 逻辑 模块 

在 Stratix 五 中 ,扩展 了 LE 概念 ，Al- 
tera 称 之 为 一 个 自 适 应 逻辑 模块 ( Adap- 
tive Logic Module, ALM), ， 如 图 5-9 所 
AR. ALM 基于 可 分 裂 的 8 输入 LUT, ft 
许 图 5-3 所 示 的 原始 LE 配置 ; 也 允许 很 
多 其 他 组 合 输入 ， 包 括 7 输入 和 6 输入 图 5-9 Altera ALM 框图 
的 组 合 , 5 输入 和 3 输入 的 组 合 ， 甚 至 5 输入 和 5 输入 、4 输入 和 5 输入 ， 以 及 6 
输入 和 6 输入 的 LUT 组 合 (只 要 单独 输入 的 总 和 不 超过 8 就 可 以 ) 。 此 外 ， 还 有 
两 个 专用 的 加 法 器 和 两 个 寄存 器 。 在 ALM 中 的 寄存 器 与 LUT 的 比例 为 2:1， 以 
确保 FPGA 不 是 寄存 器 受 限 的 。 两 个 加 法 器 能 进行 2 位 加 法 或 一 个 单独 的 三 进 制 
加 法 。LUT -乘法 器 - 寄存 器 组 合 的 核心 概念 仍然 保留 ， 不 过 这 将 变 成 一 个 更 大 
的 LUT。 

2. 存储 器 结构 

Altera Stratix FPGA 具有 分 级 储存 器 体系 ， 即 TriMatrix 存储 器 ， 具 有 从 小 的 
分 布 式 存储 器 模块 到 大 的 17Mbit 容量 的 存储 器 模块 的 分 布 范围 ， 运 行 速率 超过 
600MHz。 表 5-3 中 列 出 了 存储 器 。 包 括 的 三 种 类 型 。 

MLAB 模块 或 储存 LAB 是 LAB 的 衍生 物 。MLAB 是 LAB 的 一 个 父 集 而 且 能 
实现 640 位 的 简单 双 端 口 SRAM。 因 为 每 个 ALM 能 够 被 配置 成 64 x 1 或 32 x 2 模 
块 ， 所 以 MLAB 能 够 被 配置 成 像 一 个 64 x 10bit BY 32 x20bit 的 简单 双 端 口 SRAM 
模块 。MLAB 和 LAB 模块 成 对 共存 ， 这 人 允许 50% 的 LAB 被 换 成 MLAB, DSP 应 
用 中 ，MLAB 被 用 于 本 地 存储 器 来 储存 临时 的 本 地 数据 ， 因 为 大 量 的 存储 器 能 并 
行 存 取 ， 所 以 性 能 很 高 。 

M9K 是 9KB 模块 RAM， 人 允许 存储 大 量 数据 ， 如 图 5-8 所 示 。 

比 M144K 模块 更 大 的 是 144KB RAM， 在 DSP 的 图 像 处 理应 用 中 ， 可 以 用 于 
储存 图 像 。 

每 个 嵌入 式 存 储 器 模块 能 独立 配置 成 单 端 或 双 端 RAM， 或 者 移 位 寄存 器 。 

表 5-3 Stratix 存储 器 类 型 及 用 法 





建议 的 用 法 
移 位 寄存 器 ， 小 的 先 人 先 出 缓存 ， 滤 波 器 先 人 
先 出 缓存 区 ， 滤 波 器 延迟 线 
一 般 目的 的 应 用 ， 打 包头 文件 ， 单 元 缓存 区 
处 理 器 编程 存储 ， 打 包 或 录制 帧 缓冲 器 
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3. DSP 处 理 模块 

Altera Stratix I FPGA 的 关键 组 件 是 DSP 功能 模块 。 最 大 的 Stratis 设备 支持 
多 达 112 个 这 种 模块 ， 运 行 速度 可 达 500MHz， 从 而 为 大 量 的 DSP 应 用 提供 巨大 
的 运行 容量 。 图 5-10 所 示 为 半 个 DSP 模块 的 详细 框图 。 输 入 寄存 器 模块 的 字 长 
是 144 位 ， 分 成 8 个 18 位 字 送 给 乘法 器 ， 如 dataa 和 datab 所 示 ， 输 出 是 72 位 
的 。 数 据 通过 寄存 器 输入 、 输 出 DSP 模块 ， 从 而 避免 了 用 DSP 模块 构成 一 个 更 
大 系统 时 关键 路 径 的 延 时 问题 。 除 了 寄存 器 输入 ， 为 了 更 高 的 速率 ，DSP 模块 具 
有 可 选 的 流水 线 技术 ， 如 图 中 流水 线 寄 存 器 库 所 示 。 在 后 面 的 章节 会 看 到 ， 在 电 
路 架构 中 必须 考虑 实现 DSP 功能 的 流水 线 延 时 。 
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Kd 5-10 Altera Stratix DSP 模块 框图 (Altera Crop. 2007) (由 Altera Corp. 许可 复制 ) 


模块 第 一 级 的 两 个 双向 的 乘法 /累加 模块 已 经 升级 ， 可 以 支持 特殊 的 DSP 功 
能 ， 也 就 是 对 每 个 模块 的 2 抽 头 FIR 滤波 器 做 了 配置 ， 在 选择 的 流水 线 之 后 利用 
第 二 级 加 法 器 /累加 器 对 两 个 2 抽 头 滤波 器 求 和 ， 从 而 形成 一 个 4 抽 头 滤波 器 ; 
FFT 部 分 蝶 形 运算 型 阶段 ; 以 及 其 他 的 复杂 运算 ， 如 复数 乘法 ， 即 在 输入 级 完美 
KAI a+ jb FE c+ jd FF (ac-bd) +j (ad +cb) 的 复杂 运算 。 乘 法 器 是 18 


第 5 章 当前 的 FPGA 技术 87 





位 的 ， 也 能 实现 9 位 乘法 。Altera 的 文献 中 (Altera Corp. 2007) 指明 9 fiz, 12 
位 、18 位 及 36 位 字 长 同时 支持 有 符号 和 无 符号 。 

复合 累加 阶段 之 后 是 可 选择 流水 线 寄 存 器 库 ， 再 之 后 是 第 二 级 加 法 器 /累加 
器 。 再 次 利用 了 加 法 器 优势 来 实现 快速 的 DSP 系统 ， 通 过 输出 寄存 器 库 的 反馈 
重 现 功能 实现 计算 ， 这 一 般 能 在 IIR 滤波 器 实现 中 看 到 。 此 外 ，DSP 模块 可 以 利 
用 链 式 输出 加 法 器 将 以 上 DSP 模块 的 输出 相 加 ; 这 是 因为 DSP 模块 在 纵 列 中 是 
相连 的 ， 如 图 5-8 所 示 。 这 表明 用 这 种 方法 连接 两 个 DSP 模块 可 以 实现 4 抽 头 
滤波 器 ， 也 可 以 实现 更 大 的 滤波 器 ， 只 是 需要 更 多 的 DSP 模块 。 

凑 整 与 饱和 模块 被 放置 在 第 二 级 加 法 器 /累加 器 和 链 式 输出 加 法 器 模块 之 后 。 
第 一 级 里 的 字 长 是 可 以 预见 的 ， 但 是 由 于 输出 经 回环 不 断 地 回馈 ， 使 用 凑 整 或 饱 
和 模块 来 避免 溢出 很 有 必要 。 同 样 ， 当 创建 大 型 滤波 器 时 ， 该 模块 也 适用 于 链 式 
输出 加 法 器 。 第 4 章 已 经 讲 了 其 中 的 原因 。 

AZ, DSP 模块 能 够 完成 5 个 基础 的 DSP 运算 ， 见 表 5-4， 它 是 对 数据 手册 
内 容 的 汇总 。 这 里 给 出 了 算法 (有 符号 /无 符号 ) 与 能 否 凑 整 的 更 多 细节 。 支 持 
两 种 竣 整 模式 ， 即 DSP 中 常用 的 凑 整 方法 : 四 舍 五 和 人 模式， 向 偶数 竣 整 模式 。 
也 支持 两 种 饱和 模式 ， 即 对 称 和 非 对 称 饱和 。 在 二 补 数 形式 中 ， 最 大 的 负数 表示 
为 -2"-!， 例 如 8 位 时 为 -128， 最 大 的 正 数 是 2"-' -1， 例 如 8 位 时 为 127。 在 
非 对 称 情况 下 ， 这 是 任何 数字 的 饱和 范围 ， 即 从 -2" +1, 例如 -127, 到 2"-! -1， 
例如 127。 对 于 在 44 位 表示 法 中 凑 整 和 饱和 有 16 种 不 同形 式 ， 需要 根据 应 用 允 
许 准 确 度 动态 范围 调整 。 

表 5-4 DSP 模块 运行 的 模式 (Altera Corp. 2007) 


独立 乘法 器 9 


双 乘 法 器 的 加 法 器 
4 乘法 器 的 加 法 器 
复合 累加 器 








4. Stratix 时 钟 网 络 和 PLL 
在 FPCA 技术 中 ， 有 时 深入 理解 DSP 模块 很 重要 ， 但 看 一 下 定时 策略 也 很 重 
要 ， 因 为 它 是 达到 需求 性 能 的 关键 。Stratix 亚 设 备 有 大 量 的 专用 全 局 时 钟 
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(Global Clock, GCLK) 网 络 、 局 部 时 钟 (Regional Clock, RCLK) 网 络 及 外 围 时 
钟 (Periphery Clock, PCLK) 网 络 。 这 些 被 统一 纳入 了 一 个 分 层次 的 时 钟 结构 ， 
它 提供 了 高 达 220 个 特别 的 时 钟 域 (16GCLK + 88RCLK + 116PCLK ) 。 因 为 时 钟 
网 络 能 耗 巨大 ， 所 以 Quartus I 软件 编译 器 会 自动 关闭 设计 中 不 用 的 时 钟 网 络 。 
Stratis 每 个 设备 具有 高 达 12 个 PLL 而 且 每 个 PLL 有 高 达 10 个 输出 ， 他 们 每 一 个 
都 能 被 独立 编程 ， 可 定制 时 钟 频 率 ， 并 且 与 其 他 输入 或 者 输出 时 钟 没有 固定 的 
联系 。 

总 共 提 供 16 个 GCLK， 它 们 被 纳入 了 一 个 H 时 钟 树 网 络 ， 如 图 5-11 所 示 。 
这 为 每 个 时 钟 信号 提供 一 个 相等 的 延 时 ， 从 而 消除 时 钟 偏 移 。GCLK 信和 号 可 以 驱 
动 功能 模块 ， 如 ALM, DSP 模块 、TriMatrix 存储 器 模块 及 PLL, Stratis Mikk V/ 
O 元件 (1/0 Element, IOE) 和 内 部 逻辑 也 能 驱动 GCLK 来 在 内 部 生成 全 局 时 钟 
和 其 他 高 扇 出 控制 信号 ， 如 全 局 复位 或 时 钟 使 能 。RCLK 网 络 仅 占 驱动 的 四 分 之 
一 ， 且 能 作为 全 局 复位 或 使 能 时 钟 来 使 用 。PCLK 网 络 是 来 自 Stratis 亚 设 备 外围 
驱动 时 钟 网 络 的 集合 。 
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图 5-11 H 时 钟 树 缓存 区 


另外 ，PLL 能 实现 内 部 或 外 部 时 钟 ,与 一 个 输入 参考 时 钟 人 ;的 相位 同步 或 
频率 同步 。 图 5-12 所 示 为 在 Altera Stratis 中 使 用 的 一 类 PLL。 电 压 控 制 振荡 器 
( Voltage Controlled Oscillator, VCO) 产生 一 个 周期 输出 信和 号。 假定 振荡 器 产生 一 
个 接近 的 频率 作为 参考 信号 。VC0O 输出 时 钟 频率 与 参考 时 钟 大 的 相位 差 可 以 通 
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图 5-12 相位 锁定 回路 


过 一 个 叫 作 相位 频率 检测 (Phase Frequency Detector, PFD) 的 模块 检测 到 。 然 
后 产生 有 效 的 控制 信号 来 控制 VCO 频率 的 上 升 或 下 降 。 这 些 信号 通过 充电 冬 的 
电路 来 改变 控制 电压 ， 最 终 控制 VCO 速度 上 升 或 速度 下 降 。 低 通 滤波 器 也 叫 回 
路 滤波 器 ， 用 来 使 充电 汞 陡峭 的 控制 输入 变 得 平滑 ， 从 而 防止 电压 过 冲 并 且 将 这 
些 上 升 或 下 降 的 信号 转变 为 一 个 电压 ， 再 经 偏 压 发 生 器 来 偏 置 VCO， 由 此 决定 
VCO 的 运行 速度 。 反 馈 环 路 中 的 除法 器 用 于 提高 VCO 的 频率 ， 使 输出 频率 高 于 
输入 参考 频率 人 。， 这 就 意味 着 VCO 到 PFD 的 反馈 时 钟 是 输入 参考 时 钟 人 .的 六 
倍 。 因 此 ， 输 入 PFD 的 反馈 时 钟 被 锁 在 时 钟 f; 上 ,fi; 又 可 以 作为 男 一 个 PLL 的 
参考 信号 。 

在 Altera Stratix FPGA 中 , FPGA 的 左边 /右边 PLL AY VCO 输出 7 个 缩放 后 的 
计数 器 ， 同 时 顶部 /底部 PLL 的 VCO 输出 10 个 缩放 后 的 计数 器 。 这 些 计数 器 通 
过 PLL 可 以 产生 许多 谐 波 频率 。 

5. VO 和 外 部 存储 器 接口 

Strtix M FPGA 的 每 个 低 电 压 CMOS 和 TTL 标准 可 编程 输入 和 输出 引 脚 上 有 
大 量 的 标准 接口 。 这 些 引 脚 包括 复合 IOE， 它 位 于 Stratis 设备 外 围 VO 模块 中 ; 
包含 双向 IO 缓存 区 和 IO 寄存 器 ， 人 允许 引 脚 配置 为 全 艇 入 式 双 向 单数 据 或 双 数 
据 速率 传输 ， 其 中 用 时 钟 的 上 升 和 下 降 沿 加 速 数据 传输 。 如 图 5-8 所 示 ， 每 行 
WO 模块 有 多 达 4 个 IOF 而 且 每 列 VO 模块 也 有 多 达 4 个 IOE; 行 IOE 驱动 行 、 
列 或 直接 链 路 互 连 ， 列 IOE 驱动 列 互 连 。 许 多 标准 的 产品 特性 都 支持 ， 包 括 可 
编程 的 输入 和 输出 延 时 、 转 换 速 率 、 总 线 状 态 保持 和 上 拉 电 阻 、 漏 极 开 路 输出 及 
大 量 片上 串联 终端 模式 。 行 WO 库 支持 VO 配置 为 132 全 双 工 1. 25Gbps 完全 低 
电压 差分 信号 通道 (132Tx + 132Rx) 。 

LO 结构 也 支持 高 性 能 外 部 存储 器 标准 ; 支持 高 达 400MHz 频率 的 DDR 存储 
器 标准 ， 如 DDR3, DDR2 和 DDR SDRAM, QDR II + 和 QDR I SRAM 和 
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RLDRAMIL, 45-5 列 出 了 典型 存储 器 接口 的 速率 等 级 。 
35-5 Altera Stratix 的 典型 接口 速度 


内 存 接口 标准 最 大 时 钟 速率 
10 标准 * ^y 
DDR SDRAM -4 速率 等 级 -2 速率 等 级 





era 


6. 干 兆 比 特 收 发 器 

Stratix® I. 系列 设备 有 一 系列 高 速率 的 千 兆 比特 收发 器 模块 ， 它 们 使 DSP 系 
统 中 的 数据 可 以 在 不 同系 统 设备 之 间 高 速 传输 ， 即 芯片 到 芯片 传输 。 该 收发 器 使 
用 一 对 差分 信号 ， 即 携带 相反 逻辑 值 的 一 对 信号 来 传输 数据 ,并 且 使 用 男 一 对 来 
接收 数据 ， 因 此 取 名 收发 器 。 这 些 收发 器 运行 数据 速率 很 高 ， 比 如 Stratix® I 系 
列 速率 高 达 1. 25GHz 并 且 支 持 许多 通信 协议 ， 如 Utopia 和 Rapid LOT 。 这 些 会 
在 后 面 解释 。 

传统 系统 使 用 总 线 分 层 连接 系统 设备 来 构建 ， 因 此 设备 在 层级 中 根据 它们 要 
求 的 性 能 等 级 以 适度 的 等 级 安放 ， 即 低 性 能 设备 安放 在 低 性 能 总 线 等 。 许 多 实现 
个 体 连 接 性 能 要 求 的 专门 技术 已 经 介绍 过 ， 比 如 提高 总 线 频率 或 字 长 、 分 开 处 理 
事件 及 允许 无 序 实现 。 这 需要 个 体系 统 接口 和 复杂 设计 过 程 的 进一步 研发 。 在 过 
去 的 几 年 中 ， 随 着 允许 低 / 高 带宽 的 全 频 共 享 多 点 总 线 概念 的 演进 ， 高 速 通信 得 
到 了 长 足 发 展 。Rapid WOW 标准 促进 了 这 一 个 平台 的 发 展 ， 并 且 成 为 了 高 速率 
千 兆 比特 收发 器 顶级 成 员 。 在 运行 中 ， 主 挖 或 启动 处 理 器 生成 一 个 请 求 事 件 ， 这 
个 事件 通过 高 速 通信 架构 被 传输 到 目标 。 然 后 这 个 目标 生成 一 个 回应 事件 返回 到 
启动 处 理 器 来 完成 运行 。Rapid VO™ 事 件 被 密封 在 数据 包 内 ， 其 中 包括 所 有 确 
定 可 靠 传输 到 目标 终点 的 必要 的 位 域 。Rapid VO™ 提供 同样 的 编程 模块 、 人 处理 
机 制 和 为 了 串 行 与 并 行 实现 的 事件 ， 包 括 基本 映射 VO 事件 存储 器 、 基 于 端口 的 
消息 传送 和 基于 硬件 连接 的 全 局 共享 的 分 布 式 存储 器 (Bouvier 2007) 。 它 也 能 处 
理 任何 结果 的 错误 ， 应 为 每 个 数据 包 包 括 一 个 端 对 端 循环 元 余 检测 (Cyclic Re- 
dundancy Check, CRC), [JE Utopia 和 Rapid IOIY 通 过 为 通信 提供 一 个 标准 的 
接口 减少 了 设计 的 复杂 性 。 

7. 设备 安全 性 

安全 性 是 FPGA 技术 中 一 个 主要 的 关注 点 ， 因 为 大 多 数 主流 FPGA 设备 都 基 
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于 SRAM 技术 ， 像 标准 存储 器 ， 内 容 是 易 读 的 。 通 常 ， 设 计 者 会 使 用 供应 商 的 
专 有 软件 创造 出 一 个 设计 ， 生 成 一 个 配置 数据 文件 ， 编 写 基 于 SRAM 设备 的 程 
序 。 用 EPROM 或 更 一 般 的 设备 存储 FPGA 编程 信息 ， 它 被 储存 在 一 个 微 处 理 器 
的 系统 存储 器 中 而 且 在 上 电 时 加 载 。 因 此 ， 配 置信 息 数 据 能 从 EPROM 或 FPGA 
中 的 SRAM 配置 数据 单元 中 读 取 ， 这 种 方式 存在 的 问题 是 设计 者 的 知识 产权 不 
能 受到 保护 。 

因此 Stratix M 设备 增加 了 一 个 特性 ， 它 通过 使 用 工业 标准 AES 算法 将 FP- 
GA 配置 位 流 加 密 。AES 算法 通过 一 个 储存 在 Stratis 亚 设 备 的 安全 秘 钥 实现 ， 它 
被 用 于 加 密 配 置 文件 。 当 与 一 个 外 部 主机 ， 如 微 处 理 器 ， 一 起 使 用 快速 的 、 被 动 
的 、 并 行 配置 模式 或 当 使 用 快速 、 主 动 串 行 或 被 动 串 行 配置 方案 ( Altera 
Corp. 2007) 配置 Stratis 亚 设备 时 ， 可 以 用 来 设计 安全 属性 。 设 计 安 全 属性 可 用 
于 快速 主动 串 行 配置 模式 的 远程 更 新 。 


5.3.3 Hardcopy@ 结 构 化 ASIC 系列 


这 些 设备 通过 输出 引 脚 、 密 集 化 、 结 构 化 来 补足 Stratix® RS, KAA 
化 ASIC。HardCopy@ 设 备 的 重点 是 去 掉 可 重新 编程 的 FPGA 逻辑 、 路 由 选择 、 存 
储 器 和 与 FPGA 配置 相关 的 逻辑 ， 并 通过 金属 直接 连接 取代 SRAM 配置 资源 。 因 
此 ， 设 计 者 会 使 用 Stratix@ IT. FPGA 系列 设计 原型 机 ， 然 后 使 用 HardCopy@ 实 现 
量化 生产 。 

在 这 两 种 设备 中 ， 存 储 器 、 时 钟 网 络 和 PLL 是 一 样 的 ， 因 为 这 些 都 是 标准 
组 件 ， 但 是 Stratix® II ALM 和 专用 的 DSP 模块 用 逻辑 模块 的 组 合 取代 ， 即 HCell。 
Quartus 开 软件 过 去 常用 于 实现 设计 ， 然 后 在 设计 被 传 给 FPAG 之 前 使 用 预制 的 
HCell 宏 模块 库 来 取代 Stratix II ALM 与 DSP 配置 。 这 是 为 了 使 用 8 个 HCell 宏 模 
块 实现 8 个 可 支持 的 运行 模式 ， 从 而 实现 Stratis I DSP 模块 的 各 种 9、18 36 
位 乘法 、 复 合 累 加 及 复杂 的 乘法 和 加 法 。 

HardCopy I 存储 模块 也 能 实现 各 种 类 型 的 存储 器 ， 可 以 具有 或 没有 奇偶 校 
Jy, 包括 真 双 端口 、 简 单 双 端口 和 单 端 口 RAM, ROM 和 FIFO 存储 器 。Hard- 
Copy IL t4 3c Stratis FPGA 同样 的 存储 器 功能 和 特性 ， 如 特殊 的 4k M4K 
RAM 模块 和 512 位 的 M- RAM 模块 。 

当然 ， 相 比 于 传统 的 基于 SRAM 的 FPGA 实现 ， 结 构 化 的 ASIC 更 具有 吸引 
力 的 地 方 是 它们 不 需要 编程 ， 因 为 可 编程 性 已 经 被 彻底 移 除了 。 因 此 ， 需 要 去 掉 
一 些 特性 ， 比 如 需要 去 掉 加 密 数 据 流 和 配置 状态 引 脚 安全 性 等 特性 。 除 了 有 
50ms 的 较 短 时 延 外 ，HardCopy 开 结 构 化 的 ASIC 遵循 与 ASIC 上 电 一 样 的 原则 。 
在 此 期 间 ， 所 有 的 寄存 器 都 被 复位 ; 这 是 有 吸引 力 的 ， 因 为 成 本 的 原因 ， 在 
ASIC 实现 中 不 是 所 有 的 寄存 器 都 可 以 复位 。 
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5.4 Xilinx FPGA 技术 


第 一 个 FPCA 是 1982 年 开发 的 Xilinx XC2000 系列 。 基 本 的 概念 是 为 了 拥有 
可 编程 单元 ， 并 通过 可 编程 构造 连接 ， 通 过 可 编程 VO 馈送 信号 ， 如 图 5-13 所 
示 。 这 个 Xilinx FPGA 不 同 于 基于 PLD 的 早期 Altera 设备 ， 因 此 ，Altera FPGA 
没有 同样 的 高 级 可 编程 的 互 连 。 这 个 架构 包含 的 单元 叫做 逻辑 单元 或 LC， 它 的 
功能 与 Altera LE 非常 相似 ， 如 图 5-3 所 示 。 这 个 互 连 是 可 编程 的 ， 并 且 基 于 6 
晶体 管 SRAM 单元 ， 如 图 5-14 所 示 。 通 过 定位 单元 在 相互 联系 中 的 位 置 ， 能 够 
通过 水 平面 到 水 平面 、 垂 直面 到 垂直 面 、 垂 直面 到 水 平面 和 水 平面 到 垂直 面 的 连 
接 实现 灵活 的 路 由 。LO 单元 有 大 量 的 配置 ， 允 许 大 量 接口 模式 ， 可 将 引 脚 配置 
为 输入 、 输 出 或 双向 。 





图 5-13 早期 Xilinx FPGA 架构 


目前 ,根据 摩尔 定律 ，FPGA 成 为 在 逻辑 密 
度 和 速度 方面 不 断 扩展 的 胶合 逻辑 设备 。 该 设备 
架构 从 XC2000 一 直 升 级 到 XC4000 ， 许 多 都 未 改 
变 ， 比 如 ， 使 用 了 同样 的 LUT 表格 尺寸 。 主 要 
的 演变 是 增加 了 快速 加 法 器 ， 制 造 商 观 察 到 通过 
在 LE 单元 中 添加 一 个 额外 的 数据 复 用 器 ， 通 过 
映射 一 些 逻 辑 能 进入 快速 进位 加 法 器 逻辑 ， 一 些 图 5-14 Xilinx FPGA 
能 进入 LUT 实现 快速 加 法 器 。 图 5-15 所 示 为 SRAM 互 连 
Virtex™ FPGA 设备 的 原理 。 眼 下 ， 更 大 的 系统 设 
备 仍然 被 认为 是 胶合 逻辑 ， 但 是 快速 加 法 器 逻辑 的 出 现 打 开 了 有 限 范围 DSP 系 
统 实现 的 可 能 性 ， 特 别 是 对 乘法 性 能 有 要 求 的 地 方 ， 但 是 不 要 求全 系列 乘 数 。 这 
为 大 量 早 期 基于 FPGA 的 DSP 实现 技术 打下 了 基础 ， 将 会 在 第 6 章 介绍 。 
此 时 ， 大 量 的 FPGA 产品 制造 商 逐 渐 消 失 ， 然 后 开始 了 积累 期 ( 见 表 1-1), 
在 那个 时 期 ，FPGA 开始 积累 更 复杂 的 组 件 ， 是 始 于 板 上 专用 乘法 器 ， 出 现在 第 
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图 5-15 在 Xilinx Virtex™ FPGA 片 中 实现 加 法 器 


一 个 Xilinx Virtex™ FPGA 系列 里 如 图 5-16 所 示 ; Power-PC 模块 与 千 兆 位 收发 器 
模块 ， 出 现在 Xilinx Virtex™- I Pro; 以 及 以 太 网 MAC， 出 现在 Virtex 4。 从 图 
5-16 中 可 看 出 ， 与 Altera 技术 类 似 ，Xilinx FPGA 越 来 越 像 一 个 以 可 编程 为 主要 
目的 的 SoC， 人 允许 复杂 处 理 模块 连接 在 一 起 ， 用 LC 实现 基本 的 逻辑 功能 。 这 个 
构造 现在 包含 了 标准 系列 的 LC， 像 以 前 一 样 允 许 把 功能 连接 起 来 ， 但 现在 复杂 
处 理 模块 ， 如 18 位 乘法 器 和 PowerPC 处 理 器 (ILEI 5-17) ， 都 越 来 越 常 见 。 平 
& FPGA 概念 现在 被 用 来 描述 最 近 的 FPGA 设备 来 反映 这 个 趋势 。 所 有 目前 的 
FPGA 系列 都 可 从 Xilinx 购买 ， 见 表 5-6, 


pq : : 
数字 时 钟 管理 Rocket /O™ 
E m 
A m 4 | 处 理 器 模块 
l 
可 配置 逻辑 gl 
aala IO 存储 多 路 复 用 





图 5-16 VirtexIM-IPro FPGA 架构 综述 
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表 5-6 Xilinx 的 FPGA 系列 范围 


CPLD CoolRunner 高 性 能 ， 低 功率 CPLD 
FPGA Virtex™ /E/EM 主要 的 Xilinx 高 性 能 FPGA 技术 
FPGA Spartan 低 成 本 ， 高 容量 FPGA 

















5.4.1 Xilinx Virtex™-5 FPGA 技术 


本 节 集 中 于 最 新 的 Virtex™ FPGA, Bi) Virtex™-5 系列 ， 因 为 它 是 FPGA 系列 
中 演进 的 典型 代表 。 没 有 介绍 CPLD 系列 的 原因 是 其 细节 内 容 可 以 在 Xilinx 网 页 
EJ. Virtex™-5 有 很 多 特色 ， 如 高 性 能 逻辑 的 LX 优化 ， 具 有 低 功 耗 串 行 连 
接 的 高 性 能 逻辑 的 LXT 优化 ， 以 及 具有 低 功 耗 系列 连接 的 DSP 和 内 存 密集 型 应 
用 的 SXT 优化 。XilinxVirtex -5 系列 有 两 个 速度 级 性 能 增益 而 且 时 钟 频率 能 达 
到 550MHz。 它 有 大 量 的 板 上 IP 模块 和 大 量 的 使 352 GMACS 性 能 最 大 化 的 
DSP48E 切片 。 它 的 引 脚 数 也 提高 到 了 600， 具 有 1.25Gbps LVDS IO， 以 及 在 
100M - 3. 2Gbps 可 选 速率 的 串 行 通信 连接 Rocket IO GTP 收发 器 。 也 包括 了 硬 的 
PCI Express 端点 模块 和 Tri 模式 的 以 太 网 MAC, 
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FPGA 的 可 配置 逻辑 阵列 
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图 5-17 PowerPC 处 理 器 模块 架构 
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1. Virtex™-5 可 配置 的 逻辑 模块 

在 Xilinx 设备 中 逻辑 的 实现 使 用 了 可 配置 逻辑 模块 ( Configurable Logic 
Block, CLB) 。 为 了 实现 一 般 路 由 选择 矩阵 的 通道 ， 每 个 CLB 被 连接 到 一 个 转换 
和 矩阵， 并 且 包 含 一 对 并 列 的 切片 ， 每 个 都 有 独立 的 进位 链 ， 如 图 5-18 所 示 。 对 
每 个 CLB 来 说 ， 在 CLB 底层 的 切片 被 标 上 SLICE (0) ， 在 CLB 顶层 的 切片 被 标 
上 SLICE (1) 等 。 每 个 切片 包含 4 个 逻辑 功能 发 生 器 (或 LUT)、4 个 存储 元 
件 、 多 功能 数据 选择 器 及 进位 逻辑 ， 而 且 因 此 能 被 认为 包含 了 4 个 逻辑 单元 逻 
辑 ， 如 图 5-19 所 示 。 除 了 这 个 ,一些 叫 SLICEM 的 切片 支持 另外 两 个 功能 ， 即 用 
分 布 式 RAM 存储 数据 及 用 32 位 寄存 器 移动 数据 。 


COUT COUT 





图 5-19 一 个 切片 中 的 逻辑 单元 功能 


基本 逻辑 单元 的 配置 与 Altera LE 类 似 ， 如 图 5-3 所 示 。 它 具有 一 个 逻辑 资 
源 ， 一 个 连接 到 单 触发 器 的 6 输入 LUT， 中 间 经 过 多 个 数据 复 用 器 ， 以 及 执行 快 
速 加 法 的 电路 。 与 Altera LE 元 件 一 样 ， 基 本 人 逻辑 单元 设计 用 来 完成 组 合 和 时 序 
逻辑 实现 ， 其 中 还 有 使 用 一 个 加 法 器 的 简单 DSP 电路 。LUT 加 上 寄存 器 的 基本 
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组 合 已 被 粘 附 在 Xilinx 架构 中 ， 并 且 已 经 从 Xilinx XC4000 系列 和 Virtex™ -5 系 
列 FPGA 的 4 输入 LUT 扩展 到 了 6 输入 LUT。 这 是 摩尔 定律 支配 下 科技 提升 的 一 
个 反映 。 现 在 Xilinx Inc. (2007a) 争论 的 6 输入 而 非 Rose 等 人 〈1990) 研究 的 
4 输入 LUT， 体 现 出 设计 中 提高 硅 面 积 利 用 率 的 关键 路 径 。LUT、 触 发 器 
(Flip Flop FF) 和 一 些 特殊 器 件 ， 如 进位 链 、 专 用 复 用 器 及 连接 这 些 器 件 的 方 
式 ， 被 称 为 ExpressFabric 技术 。 

CLB 能 够 实现 以 下 功能 : 纯 逻 辑 功 能 使 用 6 输入 LUT 逻辑 及 数据 复 用 器 绕 
开 寄 存 器 ; 简单 寄存 器 使 用 数据 复 用 器 直接 将 数据 馈 人 和 馈 出 ; 以 及 时 序 逻 辑 电 
路 使 用 LUT 馈 人 寄存 器 。 使 用 数据 复 用 器 来 创建 更 大 的 LUT 和 寄存 器 ， 为 更 大 
的 组 合 和 时 序 逻 辑 电路 提供 了 创建 空间 。6 输入 LUT 的 一 个 特征 是 它 有 两 个 输 
出 ， 这 就 允许 LUT 实现 两 种 任意 定义 的 5 输入 布尔 功能 ， 同 时 这 两 个 功能 共享 
输入 ， 如 图 5-20 所 示 。 其 目的 是 当 输 入 数量 小 于 6 时 能 更 好 地 利用 LUT 资源 。 
这 个 概念 也 允许 使 用 逻辑 单元 实现 全 加 器 ， 如 图 5-15 所 示 ， 同 时 ， 使 用 额外 输 
入 和 输出 来 为 其 他 的 功能 实现 4 输入 的 LUT。 这 使 大 量 DSP 应 用 中 的 硬件 可 以 
更 好 地 被 利用 ， 否 则 LUT 会 被 浪费 在 仅仅 为 加 法 器 实现 简单 门 功能 上 。 | 





Al5-20 CLB 中 切片 的 布置 


与 Altera 技术 一 样 ， 寄 存 器 资源 也 很 灵活 ， 人 允许 存储 的 潜能 很 大 ， 从 D 型 边 
沿 触发 器 到 电 平 触发 的 锁 存 器 ， 都 有 各 种 各 样 的 同步 异步 输入 的 时 钟 、 时 钟 使 
能 、 置 位 /复位 。D 型 触发 器 的 输入 能 直接 由 许多 源 驱 动 ， 包括 LUT 输出 、 其 他 
的 D 型 触发 器 和 外 部 输入 。 

在 XilinxVirtex™-5 设备 中 ，LUT 的 更 大 优势 是 它 可 以 提供 更 大 的 分 布 式 
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RAM 模块 和 SRL 链 。 不 同 分 布 式 存储 器 配置 的 样本 见 表 5-7， 它 列 出 了 用 于 创 
建 不 同 存储 器 的 配置 数量 。 分 布 式 RAM 模块 具有 同步 写 资源 ， 而 且 使 用 同一 切 
片 的 触发 器 ， 能 实现 同步 读 取 。 通 过 减少 时 钟 到 输出 的 时 延 ， 改 进 了 关键 路 径 ， 
但 是 增加 了 一 个 额外 的 时 钟 循 环 延 迟 。 


表 5-7 各 种 存储 配置 的 LUT 数量 

















存储 类 型 
存储 单元 数量 
32 64 128 
单 端口 1 (1- 位 ) 1 (1- 位 ) 2 (1 -位 ) 
双 端 口 2 (1-17) 2 (1-17) 4 (1-19) 
四 端口 4 (2 -位 ) 4 (2 -位 ) 
简单 双 端 口 4 (6- 位 ) 4 (3- 位 ) 





大 量 的 存储 配置 已 经 列 了 出 来 。 对 于 单 端口 配置 ， 一 个 公共 的 地 址 端口 可 用 
于 同步 写 和 异步 读 。 对 于 双 端 口 配 置 ， 分 布 式 RAM 有 一 个 同步 写 和 异步 读 端 
口 ， 它 连接 到 一 个 函数 发 生 器 和 一 个 异步 读 端口 ， 以 及 第 2 个 函数 发 生 器 。 在 简 
单 双 端口 配置 中 ， 写 端口 没有 读 的 功能 。4 端口 配置 在 异步 读 创建 3 端口 和 3 个 
函数 发 生 器 概念 的 基础 上 进行 扩展 ， 加 上 一 个 同步 写 和 异步 读 端口 ,一 共有 4 个 
函数 发 生 器 。 

下 一 节 将 讲述 对 更 大 存储 模块 的 理解 ， 但 是 Altera FPGA 提出 了 以 更 小 的 分 
布 式 RAM 与 更 大 的 RAM 模块 的 组 合 来 实现 同样 分 级 存储 器 体系 的 概念 ， 并 且 
在 一 定 范围 内 被 公认 。LUT 能 实现 一 个 ROM 功能 ， 从 而 实现 可 编程 移 位 寄存 
器 ， 如 第 6 章 所 述 。Virtex™-5 的 函数 发 生 器 和 关联 的 一 些 如 图 5-19 所 示 的 数据 
复 用 器 ， 能 使 用 一 个 LUT 实现 一 个 4: 1 的 数据 复 用 器 ， 使 用 两 个 LUT 实现 一 个 
8: 1 的 数据 复 用 器 。 

2. 存储 器 构成 

除了 分 布 式 RAM Sh, Virtex™-5 设备 有 大 量 的 36KB RAM 模块 ， 它 们 每 个 
包含 两 个 独立 受 控 的 18KB RAM。 整 个 存储 器 的 配置 见 表 5-8。 在 不 使 用 可 编程 
互 连 的 前 提 下 ，18KB RAM 模块 可 以 被 配置 成 36KB RAM。 模 块 RAM 布置 成 纵 
列 ， 而 且 能 够 串联 来 创建 更 深 更 宽 的 RAM 模块 。 每 个 18KB RAM 模块 ， 双 端口 
存储 器 包含 一 个 18KB 储存 空间 和 两 个 完全 独立 的 接 入 端口 ， 连 同 其 他 电路 一 
起 ， 可 以 用 来 实现 预期 的 RAM 功能 ， 如 图 5-21 所 示 。 存 取 引 脚 的 完整 定义 在 下 
面 给 出 ， 这 代表 了 标准 RAM 配置 。 
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表 5-8 Virtex™-5 的 类 型 和 使 用 







建议 用 法 
移 位 寄存 器 、 小 FIFO 缓冲 区 ， 滤 波 器 的 FIFO 

缓冲 区 ， 滤 波 器 ， 延 迟 线 

多 速率 FIFO 

















E] 可 配置 选项 


B| 5-21 模块 RAM 逻辑 框图 (Xilinx Inc. 2007b) (由 Xilinx Inc. 许可 复制 ) 


1) 每 个 18KB 模块 RAM 的 时 钟 能 够 被 配置 为 上 升 沿 或 下 降 沿 有 效 ， 所 有 输 
入 和 输出 端口 都 参考 这 个 时 钟 ; 

2) 使 能 信号 不 能 通过 未 激活 的 使 能 引 脚 控制 端口 的 读 、 写 和 置 位 /复位 功 
能 ， 存 储 器 将 保持 先前 的 状态 ; 

3) 附件 使 能 信号 叫 作 字 节 宽 写 使 能 信号 ， 与 使 能 信号 共同 控制 RAM 的 读 
和 写 ; 

4) 寄存 器 使 能 引 脚 控制 可 选 输出 寄存 器 ; 

5) 置 位 /复位 引 脚 可 以 强制 数据 输出 锁 存 器 置 位 ; 

6) 为 读 或 写 选择 存储 单元 的 地 址 总 线 ， 它 的 数据 位 宽 由 选择 的 RAM 功能 
的 规模 决定 。 

在 锁 存 模式 下 ， 读 地 址 寄存 在 读 端口 ， 并 且 存 储 的 数据 在 RAM 存储 访问 时 
间 后 被 加 载 到 输出 锁 存 器 里 。 当 使 用 输出 寄存 器 时 ， 读 操作 将 带 来 一 个 附加 的 延 
迟 周期 。 写 操作 也 是 一 个 单 时钟 沿 操作 ， 将 写 地 址 寄存 在 写 端 口 ， 并 且 输入 数据 
被 储存 在 存储 器 里 。 这 个 附加 的 电路 如 图 5-21 所 示 ， 指 明 反 向 时 钟 与 一 个 寄存 
器 的 输出 是 如 何 同 时 被 支持 的 。 使 用 INIT 参数 能 初始 化 RAM 的 内 容 ， 而 且 能 通 
过 HDL 源 代 码 体现 出 来 。 

RAM 具有 许多 的 配置 选择 ， 其 中 一 些 见 表 5-9， 表 中 列 出 了 数据 位 宽 是 如 
何 根据 存储 器 深度 ， 即 存储 单元 的 数量 来 权衡 的 。 
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表 5-9 Xilinx VirtexTM-5 模块 的 存储 容量 

















数据 宽 存储 深度 
1 (WK) 32768 (65 536) 
2 16384 
4 8192 
9 4096 
18 2048 
36 1021 





模块 RAM 使 能 中 添加 了 专用 逻辑 来 允许 同步 或 异步 先 人 先 出 的 创建 ; 这 在 
一 些 高 级 设计 方法 里 很 重要 ， 正 如 我 们 后 面 将 看 到 的 。 专 用 逻辑 可 以 替代 更 慢 的 
可 编程 CLB 逻辑 和 路 由 资源 ， 而 且 为 写 和 读 指针 的 生成 及 与 FIFO 相关 的 各 种 标 
记 的 设置 提供 必要 的 硬件 。FIFO 的 容量 是 可 以 被 推算 出 来 的 ， 包 括 8KX4, 
4KX4, 4KX9, 2KX9, 2KX18, 1KX18, 1KX36, 512X36 fll 512X72, 

3. Virtex™-5 DSP 处 理 资源 

除了 CLB 中 可 扩展 的 加 法 器 ，Virtex -5 还 有 专用 DSP 处 理 模块 ， 叫 作 
DSP48E, Virtex™-5 有 可 达 640 个 的 DSPA8E 切片 ， 它 们 分 布 在 FPGA 的 不 同位 
置 ， 而 且 支 持 大 量 的 独立 功能 ， 包 括 复 合 MAC 、 复 合 加 法 、3 输入 加 法 、 快 速 移 
位 、 宽 总 线 复 用 、 量 级 比较 器 、 位 宽 逻 辑 功能 、 模 式 检 测 和 宽 计 数 器 。 这 个 架构 
也 允许 连接 复 用 DSPASE 切片 来 形成 一 个 更 宽 的 DSP 功能 范围 ， 比 如 DSP 滤波 
器 、 相 关 器 和 频 域 功能 。 

简易 版 本 的 DSP48E 处 理 模块 如 图 5-22 所 示 。DSP48E 模块 的 基本 架构 是 一 
个 乘法 - 累加 核 ， 它 对 大 量 的 DSP 计算 来 说 是 一 个 非常 有 用 的 引擎 。 但 是 ， 除 
了 基本 MAC 功能 外 ，DSP48E 模块 也 允许 大 量 其 他 的 运算 模式 ， 如 下 : 

1) 25 位 x18 位 乘法 运算 ， 它 可 进行 流水 线 应 用 ; 

2) 96 位 累加 或 加 法 或 减法 器 ( 跨 过 了 两 个 DSP48E 切片 ; 

3) 三 倍 的 和 有 限 的 四 倍加 减法 ; 

4) 专用 按 位 逻辑 运算 ; 

5) 对 上 洲 和 下 洲 算 法 的 支持 。 

每 个 DSPA8E 切片 有 一 个 25 位 x 18 位 的 乘法 器 ， 它 是 从 两 个 数据 选择 器 馈 
入 的 ， 数 据 选择 器 接收 一 个 30 位 的 4 输入 和 一 个 18 位 的 B 输 入， 它们 要 么 来 自 
交换 矩阵 ， 要 么 直接 来 自 DSP48E 的 下 方 。 在 被 馈 人 到 乘法 器 之 前 ， 这 些 能 被 存 
储 在 寄存 器 里 (图 5-22 中 没有 显示 ) 。 仅 仅 在 乘法 运算 之 前 ，4 信和 号 被 分 开 ， 而 
HAA 25 位 信号 被 馈 人 乘法 器 中 。 使 用 一 个 快速 乘法 器 技术 ， 它 产生 一 个 等 价 
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操作 模式 控制 行为 
P a 
fe 
W 
B[ ^ Uum X 
` — p 








OPMODE,CARRYINSEL 
和 AULMODE 的 控制 行为 


5-22 名 为 DSP48E 的 DSP 处 理 模 块 ( Xilinx Inc. 2007c) (由 Xilinx Inc. 许可 复制 ) 


的 两 部 分 乘积 形式 的 43 位 二 补 数 结果 ， 然 后 分 别 扩展 为 有 48 位 有 符号 数 的 乘 数 
X 和 乘 数 了 Y， 最 后， 馈 入 到 三 输入 加 法 /减法 器 中 实现 最 终 的 求 和 。 

如 第 4 章 所 述 ， 许 多 快速 乘法 器 设计 概念 都 相同 ， 这 个 概念 就 是 使 用 快速 进 
位 保留 加 法 器 来 最 终生 产 一 个 最 后 的 总 和 与 进位 信号 ， 并 使 用 一 个 快速 进位 脉冲 
来 实现 最 后 的 加 法 。 最 后 的 加 法 代价 是 很 高 的 ， 要 么 是 在 速度 方面 的 代价 ， 而 如 
果 已 经 使 用 了 速度 提升 的 技术 ， 那 就 是 面积 方面 的 代价 。 通 过 推迟 加 法 到 ALU 
阶段 ， 这 一 个 两 阶段 加 法 可 以 通过 乘法 积累 实现 ， 这 需要 通过 执行 一 个 三 阶段 加 
法 来 计算 最 后 的 乘法 输出 并 对 累加 输入 执行 一 阶段 加 法 实现 。 再 次 ， 为 了 灵活 ， 
加 法 /减法 器 单元 已 经 扩展 增 为 ALU， 因 此 使 用 小 的 硬件 开销 就 可 以 实现 更 多 的 
功能 。 因 为 传统 乘法 的 最 后 一 个 阶段 是 在 第 二 阶段 加 法 器 中 执行 的 ， 所 以 如 果 需 
要 ， 则 可 以 利用 一 个 三 输入 加 法 与 第 三 输入 一 起 完成 MAC 运算 。 

数据 复 用 器 允许 附加 更 多 灵活 性 等 级 。 比 如 ,PP 输入 能 被 用 于 馈 人 一 个 输 
入 ， 该 输入 可 以 来 自 Z 数据 复 用 器 中 使 用 PCIN 的 DSP48E 模块 ， 也 可 以 由 当前 
的 DSP48E 模块 回 送 。 比 如 说 ， 在 递归 时 使 用 P 输 入 到 2Z 数据 复 用 器 ， 如 果 不 需 
要 乘法 器 ， 则 可 以 通过 使 用 A: B 输入 绕 过 ， 它 是 两 个 输入 信号 4 和 B 的 串联 ， 
它们 分 别 是 25 位 和 18 位 ， 这 个 字 长 为 43 位 ， 同 乘法 器 输出 一 样 。 初 始 化 输入 
到 ALU 的 值 可 以 规定 为 全 0 或 全 1。 为 了 提高 单元 的 灵活 性 ， 加 法 器 也 能 被 分 成 
几 个 更 小 的 加 法 器 ， 即 允许 执行 两 个 24 位 加 法 或 4 个 12 位 加 法 。 这 就 是 所 谓 的 
SIMD 模式 ， 为 了 用 多 个 数据 做 简单 的 加 法 运算 ， 提 出 了 SIMD 操作 。DSP48E 切 
片 可 以 实现 17 位 右 线 移 位 ， 允 许 一 个 DSP48E 切片 的 部 分 乘积 项 被 移动 到 右边 
并 添加 到 下 一 个 部 分 的 乘积 项 上 ， 在 邻近 的 DSP48E 切片 里 进行 计算 。 当 专用 乘 
法 器 被 用 作 构 建 模块 时 ， 这 个 功能 可 以 构建 更 大 的 乘法 器 。 


$53 当前 的 FPGA 技术 101 


图 5-22 中 仅 画 了 基本 功能 ， 除 了 乘法 或 乘法 累加 输出 P 外 ， 其 他 信号 没有 
表示 出 来 。 包 括 : 

1) 叫 作 ACOUT 的 可 级 联 的 4 数据 端口 ， 它 允许 4 的 内 值 被 直接 馈 人 到 输 
出 ,假设 4 信号 已 经 在 内 部 延 时 了 ， 这 会 为 DSP 功能 提供 延 时 链 ， 比 如 FIR 滤 
DET 

2) 当 跨 过 两 个 DSP48E 切片 支持 96 位 加 法 /减法 时 ， 作 为 内 部 信和 号 的 可 级 
联 的 进位 输出 (CARRYCASCOUT) 和 符号 (MULTSIGNOUT) 信和 号 被 用 于 表示 
进位 输出 和 符号 ; 

3) 附加 的 SIMD 模式 需要 多 达 4 个 进位 输出 信号 (CARRYOUT) 来 支持 ， 
这 里 需要 多 达 4 个 独立 加 法 器 来 生成 这 些 进位 信号 。 

4) 模式 检测 器 支持 许多 数字 收敛 的 舍 人 、 上 溢出 /下 溢出 、 模 块 浮 点 ， 还 
支持 带 模式 检测 器 输出 (PATTERNDETECT 和 PATTERNBDETECT) 的 累加 器 终 
端 计数 (计数 器 自动 复位 ) ， 来 显示 模式 是 否 匹 配 ， 并 分 离 上 溢出 ( OVER- 
FLOW) 和 下 溢出 (UNDERFLOW) 信号。 

从 功能 角度 ， 综 合 工具 很 大 程度 上 隐藏 了 设计 功能 是 如 何 映射 到 FPGA 硬件 
上 的 ， 但 是 理解 可 用 功能 等 级 是 很 重要 的 ， 因 为 它 决定 了 用 户 将 采取 的 设计 方 
法 。 许 多 细节 例子 都 列 在 了 用 户 相 关 指 南里 面 (Xilinx Inc. 2007c) ， 详 细 说 明了 
性 能 指标 是 如 何 达 到 的 。 

4. 时 钟 网 络 和 PLL 

XilinxVirtex™-5 FPGA 系列 能 提供 550MHz 的 时 钟 频 率 。VirtexIM-5 FPGA 的 
时 钟 包括 6 个 时 钟 管理 模块 (Clock Management Tile, CMT), £&—^- CMT 包含 
两 个 数字 时 钟 管理 器 (Digital Clock Manager, DCM) 和 一 个 PLL。 总 之 ，FPGA 
合计 有 18 个 时 钟 发 生 器 。 

DCM 是 XilinxVirtex™-5 FPGA 的 一 个 关键 特征 ， 它 具有 范围 广大 的 强大 时 
钟 管理 特性 ， 包 括 一 个 延 时 锁定 回路 (Delay Locked Loop, DLL), ， 这 可 以 使 输 
入 的 时 钟 和 早先 介绍 的 已 经 产生 的 时 钟 对 齐 。 它 也 可 以 产生 大 范围 的 时 钟 频 率 ， 
包括 一 个 两 倍 频 和 一 系列 特定 的 分 数 级 时 钟 频率 ， 可 以 是 输入 时 钟 的 1.5，2， 
0905 
15 或 16 倍 。 支 持 粗 粒 度 (90°, 180°5 270°) 与 细 粒 度 相 移 ， 以 及 各 种 精细 的 
或 分 数 级 的 相 移 。 

PLL 的 主要 作用 是 与 DCM 一 起 实现 频率 合成 ， 以 及 内 部 或 外 部 时 钟 消 抖 。 
对 于 时 钟 发 生 器 ，6 个 PLL 输出 计数 器 被 复合 成 一 个 单一 时 钟 信号 来 为 DCM 提 
供 参考 时 钟 信 和 号。 来 自 PLL 的 两 个 输出 时 钟 能 驱动 DCM， 例 如 当 一 个 能 驱动 第 
一 个 DCM 时 另 一 个 可 以 驱动 第 二 个 DCM。 每 个 DCM 的 输出 可 以 灵活 地 被 复合 
到 一 个 单一 时 钟 信号 中 ， 作 为 PLL 的 一 个 参考 时 钟 使 用 ， 而 且 DCM 随时 可 以 被 
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FAVE PLL 的 参考 时 钟 (Xilinx Inc. 2007c ) 。 

5. VO 和 内 部 存储 器 接口 

与 Altera FPGA 设备 相 比 ，VirtexTM-5 FPGA 支持 许多 不 同 L/O 标准 接口 ， 称 
为 SelectIO™ 驱 动 器 和 接收 器 ， 允 许 控 制 输出 强度 和 转换 速率 及 片上 端 接 。 与 
Altera FPGA —##, VO 接口 被 放置 在 一 个 包括 40 IOB 的 库 中 ， 覆 盖 了 一 个 
20CLB 的 高 物理 区 域 ， 而 且 由 单一 时 钟 控制 。Virtex -5 FPGA 也 有 数控 电阻 
( Digitally Controlled Impendance, DCI) 技术 ， 可 以 调节 输出 阻抗 或 输入 传输 线 ， 
准确 匹配 传输 线 的 特征 阻抗 。 有 效 端 接 PCB 印 制 线 信号 在 高 速 电 路 的 实现 中 日 
趋 重 要 ， 而 且 这 个 方法 可 以 避免 增加 板 上 终端 电阻 。 同 时 还 支持 许多 标准 ， 包 括 
低 电 压 唱 体 管 对 晶体 管 逻辑 (Low Voltage Transistor-Transister Logic, LVTTL) 、 
低 电 压 互 补 金属 氧化 物 半 导体 (Low Voltage Complementary Metal Oxide Semicon- 
ductor, LVCMOS) 、 外 围 组件 接 口 (Peripheral Component Interface，PCI) ， 包 括 
PCIX, PCI33, PCI66 和 低 电压 差分 信和 号 等 。 

Virtex™-5 FPGA 还 支持 输入 串 行 并 行 转换 器 (Input Serial to Parallel 
Converter, ISERDES) 和 输出 并 行 串 行 转化 器 (Output Parallel to Serial Converter, 
OSERDES) 。 这 些 人 允许 非常 快 的 外 部 VO 数据 速率 ， 比 如 SDR 和 DDR, Rist A 
到 要 慢 上 一 个 数量 级 的 内 部 FPGA 逻辑 。 这 本 质 上 是 一 个 附加 的 串 行 并 行 的 转换 
硬件 模块 ， 它 允许 进入 到 FPGA 架构 的 并 行 数 据 流 序列 重 排 ， 以 及 处 理 选 通 脉冲 
到 FPGA 时 钟 域 交叉 电路 的 存在 。 


5.5 Lattice FPGA 系列 


Lattice®@ 提 供 许多 FPGA 架构 ， 包 括 基于 CPLD 概念 的 ispXPLD™ 5000MX A 
列 ， 具 有 高 速 通信 接口 、 存 储 器 和 专用 ASIC 模块 实现 的 更 加 标准 化 的 FPGA 的 
LatticeSC/M 系列 ， 具 有 许多 与 LatticeSC/M 系列 相同 功能 的 低 成 本 LatticeECP2/ 
M 系列 。 


5.5.1 Lattice? isp XPLD 5000MX 系列 


isp XPLTD™5000MX 系列 通过 E? PROM 非 易 失 性 单元 存储 设备 配置 ，SRAM 
提供 逻辑 实现 ， 提 供 启动 时 逻辑 可 用 性 解决 方案 。 它 还 具有 灵活 的 存储 能 力 、 支 
持 单 端 或 双 端 SRAM、FIFO、 三 元 的 内 容 可 寻 址 存储 器 (Content Addressable 
Memory，CAM) 的 运算 及 专用 运算 功能 。 但 是 ， 该 技术 主要 受益 于 使 用 CPLD 
架构 实现 可 预测 定时 。ispXPLD 5000MX 设备 的 架构 由 与 一 个 全 局 布线 区 相连 的 
多 功能 模块 (Muti Function Block, MFB) 单元 组 成 ， 这 些 多 功能 模块 经 多 个 共 
享 数 组 (Multi Sharing Array, MSA) 连接 到 输入 和 输出 引 脚 ， 如 图 5-23 所 示 。 
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MFB 由 多 功能 数组 和 相关 的 路 由 组 成 ， 它 能 够 处 理 来 自 GRP 和 4 个 全 局 时 钟 及 
复位 信号 的 多 达 68 个 输入 并 且 产 生 到 宏 单元 或 别处 的 输出 。 该 设备 允许 相 邻 
MFB 级 联 来 支持 更 宽 的 运算 ， 每 个 MFB 能 配置 成 许多 模式 ， 包 括 逻 辑 和 存储 器 
配置 ， 比 如 单 端 和 双 端 RAM, FIFO 模式 及 CAM。 


LO 


输出 共 
享 阵列 


E 


em 





Kd 5-23 Lattice isp XPLD 5000MX 系列 


这 里 集中 介绍 LatticeSC/M FPGA (Lattice Semi. Ic. 2007) ， 因 为 它 代 表 了 
高 性 能 的 FPGA 系列 ， 具 有 许多 出 现在 更 低 成 本 Lattice ECP2/M 系列 上 的 特点 。 
LatticeSC/M 设备 的 架构 如 图 5-24 所 示 ， 它 把 包含 的 标准 可 编程 VO 模块 连接 到 
几 排 逻辑 模块 ， 形 成 可 编程 功能 单元 (Programmable Function Unit，PFU ) 。 这 些 
PFU 由 切片 组 成 ， 每 个 都 包含 两 个 4 输入 LUT 和 两 个 寄存 器 ， 与 进位 传播 和 进 
位 生成 信号 一 起 形成 快速 加 法 器 结构 。 与 其 他 FPGA 产品 一 样 ， 这 个 功能 能 够 实 
现 组 合 和 时 序 逻 辑 ， 按 要 求 缩放 LUT 大 小 和 寄存 器 容量 。 与 ispXPLTD™ 
5000MX 系列 类 似 ，PFU 也 能 配置 为 各 种 存储 类 型 。 最 大 的 设备 具有 115k 
的 LUT, 

除了 可 编程 逻辑 外 ， 该 设备 还 包含 可 达 7.8Mbit 的 能 入 式 模 块 RAM， 来 匹 
Ac PFU 中 的 2Mbit 分 布 式 RAM。 这 些 系统 成 员 如 同 其 名 称 一 样 ， 可 以 配置 成 
RAM, ROM 或 FIFO， 具 有 高 度 可 编程 性 。 除 了 标准 可 编程 VO 引 脚 外 ， 高 性 能 
LO 作为 专用 SERDES 和 PCS 硬件 也 被 包括 在 内 ， 具 有 2Gbivs L/O FEA. 3x 3c 
现 了 在 卫 核 上 聚集 较 大 的 专用 IP 功能 的 概念 。 
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SERDES 模块 IO 


L- KR K 










RAM 框图 


256x9 双 端口 SRAM 
或 FIFO 模块 


逻辑 块 
RAM 模块 


256x9 双 端口 SRAM 
或 FIFO 模 块 


5-25  ActelPro ASICPLUS FPGA ( Actel Corp. 2007b) (由 Actel Corp. 许可 复制 ) 


与 Altera 和 Xilinx 的 产品 不 同 的 是 结构 化 的 ASIC 性 能 ， 如 图 5-25 所 示 。 这 
个 成 本 屏蔽 矩阵 (Masked Array for Cost Optimization, MACO) 模块 ， 具 有 50000 
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个 ASIC 门 ， 使 用 90nm CMOS 处 理 技术 实现 ， 并 做 了 速度 、 功 率 损耗 和 面积 的 
优化 〈Lattice Semi. Inc. 2006) , MACO 模块 直接 接 到 IO 和 FPGA 结构 上 ， 因 此 
针对 特殊 硬件 需求 可 以 完成 专用 的 快速 低 功 耗 实现 。 除 了 门 外 ， 每 个 MACO 模 
都 包含 3 个 64 x40 的 异步 双 端 口 RAM， 以 及 FPGA 的 RAM。 双 端口 RAM 与 
MACO 模块 处 于 同一 位 置 而 且 能 通过 专用 MACO 接口 模块 或 MIB 进行 存 取 。 通 
过 布置 于 WO 引 脚 和 板 上 模块 RAM 之 间 ， 可 以 实现 大 量 的 快速 、 低 功 耗 模块 ， 
如 专用 或 特殊 存储 器 接口 。 


5.6 Actel® FPGA 技术 


Actel@ 提 供 大 量 FPGA 技术 ， 都 是 基于 闪存 和 反 熔 丝 技术 。 他 们 最 近 正式 推 
出 了 一 个 名 为 Fusion 的 技术 ， 它 代表 了 第 一 个 混合 FPGA 信号 (Actel 
Corp. 2007a) 。 它 包括 A-D RAE. ASIA, URW D 型 触发 器 和 RAM 
的 形式 出 现 的 更 加 传统 的 数字 FPGA 硬件 。 闪 存 技术 是 非 易 失 性 的 ， 意 味 着 FP- 
GA 会 存储 其 设计 且 上 电 即 可 ， 不 需要 通过 ROM 或 协同 处 理 器 编程 。 最 大 的 设 
备 拥 有 1. 5M 个 系统 门 ， 具 有 270kbit/s 的 双 端 SRAM、 多 达 8Mbit 的 闪存 、1kbit 
用 户 闪 存 ROM， 以 及 多 达 278 个 用 户 VO, 


5.6.1 Actel®Pro ASICPLUSFPGA 技术 


Pro ASIC™ FPGA 技术 是 基于 闪存 技术 的 。 它 与 E PROM 技术 相似 ， 通 过 
储存 电荷 实现 程序 的 存储 。FPGA 技术 通过 与 门 阵列 类 似 的 一 种 架构 组 件 ， 并 且 
包含 大 量 的 单元 ， 且 每 个 单元 能 被 配置 成 一 个 3 输入 逻辑 功能 ， 或 者 一 个 D 型 
触发 器 ， 如 图 5-25 Pras. RIA A, AKA DODO SRAM 模块 ， 
以 及 允许 同步 和 异步 运算 的 顶层 和 底层 。 这 些 单 元 由 大 量 数据 复 用 器 和 逻辑 门 组 
成 ， 这 足够 制作 一 个 连接 必要 全 局 复位 和 时 钟 信 号 的 触发 器 。 这 些 单元 同时 连接 
到 本 地 和 更 远 的 线路 路 由 。 

这 些 单 元 通过 分 层 路 由 进行 连接 ， 并 且 按 照 长 度 分 为 4 个 等 级 ， 这 就 像 一 个 
细 颗 粒 架 构 ， 与 老 的 Xilinx XC2000 FPGA 技术 相似 。 下 一 级 的 线路 管理 1 个 、2 
个 或 4 个 单元 ， 它 们 可 以 通过 单元 的 输出 端 访问 。 再 下 一 级 互 连 是 跨越 了 芯片 长 
度 的 长 线 资源 。 最 后 一 级 是 全 局 信号 ， 它 们 必须 定义 为 低 延 时 ， 因 为 它们 是 全 局 
信号 ， 比 如 时 钟 、 复 位 和 使 能 信号 ， 它 们 在 全 局 使 用 容易 降低 芯片 的 性 能 。 

该 设备 还 包含 两 个 时 钟 调节 模块 ， 和 其 他 FPGA 设备 一 样 ， 包 括 PLL、 用 于 
同步 外 部 信号 的 延 时 电路 、 乘 法 器 /除法 器 电路 ， 以 及 连接 全 局 路 由 网 络 的 必要 
电路 。 该 设备 具有 4 个 时 钟 网 络 或 全 局 树 ， 特 别 设计 用 于 分 配 低 延 时 、 低 拌 动 的 
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时 钟 信 号 。 

实现 如 此 细 粒 度 技术 的 关键 是 硬件 中 各 设计 单元 很 好 的 布置 ， 因 为 有 限 的 路 
由 分 配 会 妨碍 设计 的 质量 和 底层 硬件 模块 的 利用 。 因 为 这 个 原因 ， 软 件 就 允许 使 
用 限制 来 控制 设计 布置 。 通 过 生成 一 个 电路 架构 来 匹配 最 佳 的 FPGA 资源 要 求 的 
概念 显然 是 必要 的 ， 不 仅 有 益 于 获得 必要 硬件 性 能 ， 而 且 有 利于 减轻 有 效 实现 里 
的 软件 工作 。 与 其 他 FPGA 一 样 ， 有 一 系列 的 L/O 模块 可 供 使 用 ， 而 且 具 有 针对 
板 级 系统 内 容 的 JTAG 形式 边界 扫描 。 


5.6.2 Actel@ 反 熔 丝 SX FPGA 技术 


除 闪 存 设 备 外 ，Actel 也 有 反 熔 丝 技术 ， 它 是 一 次 性 编程 的 。 反 熔 丝 是 一 个 
双 端 点 器 件 ， 在 未 编程 状态 呈现 出 高 阻抗 。 如 图 5-26 所 示 ， 两 个 导体 一 般 通过 
绝缘 体 分 开 ， 有 时 通过 无 定形 的 或 “可 编程 的 ” 硅 分开 。 当 一 个 高 电压 加 到 终 
端 之 间 时 ， 反 熔 丝 会 熔断 并 且 形 成 一 个 低 阻 抗 连接 (与 熔 丝 的 熔断 电路 相反 ) 。 


BRE 





图 5-26 基础 反 熔 丝 连 接 


如 图 5-27 所 示 ， 在 Actel 反 熔 丝 连 接 的 情况 下 ， 连 接 通过 非 晶 硅 和 介 电 材料 
的 组 合 实现 ， 并 且 导 通 状 态 下 有 250 阻抗 和 1. OfF 的 电容 (Actel Corp. 2007c) 。 
如 图 5-27 所 示 ， 采 用 三 层 金属 与 金属 对 金属 的 反 熔 丝 ， 使 性 能 更 好 且 空 间 更 小 。 
金属 对 金属 的 反 熔 丝 降 低 了 编程 阻抗 ， 因 此 速度 更 高 ， 并 且 多 金属 层 现在 允许 反 
熔 丝 布置 在 逻辑 之 上 ， 因 此 省 去 了 路 由 通道 。 这 使 逻辑 密度 可 以 更 高 ， 使 高 性 能 
小 封装 得 以 实现 。 

该 架构 包括 了 许多 像 Pro ASICS FPGA 技术 的 模式 ， 这 种 技术 粒度 很 细 ， 
且 有 着 两 种 类 型 的 单元 ， 即 C 单元 和 R 单元 ,C 单元 实际 上 是 一 个 组 合 单元 ， 
它 包 括 一 系列 数据 复合 器 和 逮 辑 门 ， 而 R 单元 是 一 个 寄存 器 单元 ， 它 包含 一 个 
有 着 各 种 乘法 硬件 的 D 型 触发 器 ， 这 就 允许 各 种 输入 连接 ， 而 且 允 许 使 用 各 种 
时 钟 信号 为 单元 提供 时 钟 。 由 于 配置 单元 的 可 编程 性 ， 结 构 中 包含 各 种 不 同 的 单 
元 ， 因 此 必须 创建 单元 的 预制 映射 ， 称 为 徐 。 图 5-28 所 示 为 两 种 类 型 的 超级 簇 ， 
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图 5-27 Actel® Pro ASICPLUS FPGA (Actel Corp. 2007c) (由 Actel Corp. 许可 复制 ) 


一 个 超级 艇 包含 了 两 个 CRC 簇 ， 男 一 个 超级 簇 包含 了 一 个 CRR 簇 与 一 个 跟随 其 
后 的 CRC Ro 





图 5-28 EST 
a) 类 型 1 BRR b) 类 型 2 MRR 


在 该 结构 中 ， 也 给 出 了 大 量 不 同 级 别 的 路 由 。 第 一 种 路 由 包含 一 种 直接 连 
接 ， 用 于 横向 路 由 ,实现 从 一 个 簇 中 的 C 单元 到 与 它 相 邻 的 R 单元 的 连接 ; 还 
包含 一 种 快速 连接 ， 用 于 纵向 路 由 。 同 时 具有 两 种 全 局 导向 路 由 资源 ， 即 分 段 路 
由 和 高 驱动 路 由 ， 就 像 它 们 的 名 字 一 样 ， 是 为 了 更 小 的 路 径 ， 例 如 分 段 或 更 全 局 
的 路 径 。 与 Pro ASICS FPGA 的 技术 一 样 ， 为 了 执行 有 效 ， 必 须 考 虑 单元 的 详 
细 布 置 ， 否 则 就 会 受到 可 编程 路 由 的 时 延 缺陷 影响 。 

300MHz 的 时 钟 速率 引用 自 Actel Corp. (2007c)。 此 外 ， 它 还 论述 了 安全 是 
技术 的 一 个 关键 特色 ， 因 为 它 证 明了 逆向 工程 很 难 做 到 ， 其 原因 是 很 难 分 辨 出 已 
编程 和 未 编程 的 反 熔 丝 ， 并 且 没 有 可 拦截 的 配置 位 流 。 
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5.7 Atmel? FPGA 技术 


Atmel 提供 一 系列 FPGA 技术 ， 从 AT40K 到 AT40KAL 系列 的 协 处 理 器 FP- 
GA， 它 提出 了 一 个 名 为 Free RAM™ 的 概念 ， 可 在 不 侵占 可 利用 逻辑 资源 的 情况 
下 使 用 。 它 们 的 FPGA RRA EEA SK, W FPSLIC™ FPGA 系列 ， 它 提供 
T 5k-50k 的 门 、 可 达 36k 的 SRAM 和 一 个 25MHz 的 AVR MCU, AT6000 系列 
FPGA 的 市 场 定 位 是 可 重 配置 DSP 协 处 理 器 ， 因 为 它们 有 1024 ~ 6400 寄存 器 ， 
很 适合 已 经 移植 到 硬件 上 的 DSP 计算 功能 。AT6000、AT40K 和 AT40KAL FPGA 
系列 一 个 关键 特征 是 它们 具有 可 重 构 性 ， 它 允许 FPGA 的 一 部 分 在 没有 失去 寄存 
器 数据 的 前 提 下 得 到 重 构 ， 同 时 FPGA 剩余 的 部 分 可 无 打扰 的 继续 运作 。 因 此 ， 
将 对 AT40K FPGA 系列 做 较 详细 的 介绍 。 


5.7.1 Atmel® AT40K FPGA 技术 


AT40KAL 是 一 个 基于 SRAM 的 FP- 
GA, 具有 分 布 式 双 端 / 单 端 SRAM 和 8 RV Hev HRv EP 


个 全 局 时 钟 ， 以 及 一 个 全 局 复位 。 这 个 
系列 有 5000 ~ 50000 个 可 用 的 门 。 图 


AT40KAL 是 一 个 细 粒 度 FPGA 架构 ， 包 


含 编织 成 4x4 格 状 的 简单 单元 ， 每 一 个 
都 被 中 继 器 单元 包围 ， 如 图 5-29 所 示 


(Atmel Corp. 2006) 。 中 继 器 再 生 了 信和 号 
Reel eR ae. 
线 的 连接 。 每 个 中 继 器 连接 两 个 相 邻 的 ”图 5-29 Atmel AT40K FPGA 4 x4 单 元 
本 地 总 线 分 段 ， 实 现 了 图 5-29 中 4 个 单 
元 的 局 部 连接 ， 并 拥有 两 个 快速 总 线 分 段 ， 实 现 横 跨 8 个 单元 的 更 长 线路 连接 。 
核心 单元 的 粒度 非常 细 ， 它 包括 两 个 3 输入 LUT (8x1 ROM), ， 也 可 以 被 
配置 成 一 个 4 输入 LUT、 一 个 D 型 触发 器 、 一 个 2 选 1 的 数据 复 用 器 和 一 个 与 门 
来 实现 乘法 器 阵列 。 和 其 他 FPGA 技术 一 样 ，LUT AD 型 触发 器 的 结合 允许 各 种 
组 合 和 时 序 逻辑 实现 。 有 一 种 DSP 模式 , 但 是 相 较 于 其 他 技术 而 言 它 是 较 基 础 
的 ， 因 为 它 仅 允许 使 用 那个 单元 生成 一 个 阵列 乘法 器 ， 因 此 相对 于 其 他 FPGA 技 
术 ， 其 DSP 性 能 较 差 。 
在 每 个 中 继 器 行列 的 交叉 点 上 ， 有 一 个 通过 相 邻 的 总 线 访 问 的 32 x 4 RAM 
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模块 ， 通 过 一 系列 局 部 的 快速 水 平和 垂直 总 线 ， 它 能 被 独立 寻 址 。 双 端口 Fre- 
eRAM 的 读 和 写 都 相互 独立 ， 并 且 读 是 完全 异步 的 。 

Atmel® AT40K FPGA 技术 的 一 个 有 趣 的 地 方 是 它 能 被 部 分 重 构 ， 也 就 是 被 
编程 ， 允 许 在 运行 时 变更 全 部 设计 或 部 分 设计 。 这 点 值得 详细 分 析 。 


5.7.2 Atmel® AT40K FPGA 的 重 构 技术 


AT40K FPGA 技术 有 4 个 基本 配置 操作 模式 (Atmel Corp. 2006)。 第 一 ， 当 
设备 第 一 次 上 电 时 ， 有 上 电 复 位 功能 ,实现 对 所 有 内 部 配置 SRAM 的 一 个 完全 
复位 ; 第 二 ， 也 可 以 经 复位 引 脚 的 手动 复位 来 调用 同样 的 复位 序列 ; 第 三 ， 配 置 
下 载 ， 是 通过 使 用 串 行 或 并 行 数据 经 过 输入 引 脚 来 对 FPGA 的 配置 SRAM 编程 ; 
第 四 ， 当 没有 配置 活跃 时 ，AT40K FPGA 允许 字 级 别 的 完全 重 构 。 

CacheLogic@ 架 构 是 允许 用 户 重 构 FPGA 的 一 部 分 ， 而 FPGA 的 剩 下 部 分 可 以 
不 受 影响 的 继续 运行 ， 这 是 使 用 开 窗 口技 术 做 到 的 。 它 允许 用 户 把 SRAM 存储 
器 映射 加 载 到 更 小 的 分 段 中 ， 人 允许 用 新 的 配置 信息 重 写 配置 SRAM 中 没有 被 使 
用 的 部 分 。 在 同步 RAM 模式 中 ， 设 备 接收 一 个 32 位 或 40 位 宽 的 位 流 ， 包 含 一 
个 24 位 地 址 和 一 个 8 位 宽 或 16 位 宽 的 数据 。 地 址 、 数 据 和 写 使 能 在 CCLK 的 上 
升 沿 同时 有 效 。 在 这 个 模式 下 ， 设 计 与 一 个 微 处 理 器 的 通用 LO 口 对 接 ，FPGA 
配置 SRAM 可 以 看 成 是 一 个 简单 的 存储 映射 地 址 空间 。 用 户 拥有 到 整个 FPGA 配 
置 SRAM 的 全 部 读 写 通道 。 消 除了 通常 与 位 流 联系 的 开销 ， 会 实现 更 快 的 重 
配置 。 


5.8 FPGA 技术 上 的 总 思考 


本 章 涵盖 了 来 自 各 公司 大 量 的 FPGA 技术 ， 重 点 突出 了 两 个 主要 的 供应 商 ， 
也 就 是 Xilinx 和 Altera, FPGA 技术 的 主要 驱动 力 已 经 从 一 个 使 用 LUT 和 可 编程 
互 连 实现 简单 逻辑 的 细 粒 度 设备 ， 转 移 到 了 异 构 复杂 单元 的 集合 ， 比 如 专用 DSP 
模块 、 高 速 通 信 模 块 、 软 和 硬 处 理 器 ， 以 及 前 面 提 到 过 的 LUT, 

这 已 经 对 设计 进程 有 了 许多 的 影响 。 与 以 前 的 FPGA 相 比 ， 目 标 已 经 成 为 了 
开发 一 个 有 效 的 实现 ，FPGA 硬件 的 利用 已 经 成 为 了 主要 关注 点 。 这 涉及 使 用 最 
初 的 原理 图 设计 捕获 包 ， 以 及 最 近 的 基于 HDL 的 工具 ,来 达到 一 个 有 效 的 设计 
实现 。 考 虑 到 主要 目标 是 取得 高 利用 率 ， 底 层 LUT 的 利用 耗费 了 相当 大 的 努力 。 
因此 ， 开 发 了 许多 电路 级 设计 技术 来 最 优化 地 使 用 LUT 和 触发 器 ， 以 此 来 完成 
实现 。 这 些 技术 在 第 6 章 都 会 更 加 详细 地 介绍 ， 因 为 它 对 原理 理解 很 重要 ， 尽 管 
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合 工 具 中 已 有 相当 多 的 介绍 。 因 此 ， 对 设计 技术 做 了 简 述 。 

复杂 性 已 经 随 着 较 新 的 FPGA 增长 起 来 ， 主 要 的 挑战 已 经 是 在 一 个 层面 上 设 
计 电路 架构 〈 见 第 8 章 ) ， 在 另 一 个 层面 上 设计 系统 级 架构 ， 这 是 第 7、9 和 11 
章 中 的 重点 。 一 般 电路 架构 的 重点 包括 源 于 DSP 算法 的 SFG 表示 的 所 有 FPCA 
的 具体 细节 。 因 为 在 DSP 实现 领域 里 FPGA 的 卓越 表现 ， 所 以 这 里 利用 并 行 和 流 
水 线 分 析 了 并 发 性 。 这 个 过 程 的 实现 在 第 8 章 中 会 有 详细 的 介绍 ， 高 级 工具 流 在 
后 面 的 章节 也 会 有 介绍 。 
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6.1 引言 


先前 的 章节 已 经 在 背景 方面 对 DSP 和 计算 机 算法 作 了 介绍 ， 然 后 在 最 后 两 
章 ， 将 突出 讲述 各 种 实现 技术 ; 第 4 章 已 经 强调 了 更 加 广泛 的 技术 并 且 第 5 章 已 
经 稍 加 详细 地 描述 了 各 种 FPGA 产品 。 剩 余 的 章节 将 描述 将 复杂 的 DSP 系统 实现 
到 多 样 化 平台 甚至 一 个 单个 FPGA 设备 上 的 问题 。 其 中 包含 一 些 考虑 事项 ， 比 如 
DSP 系统 实现 的 合适 模型 的 选择 、 硬 件 和 软件 中 DSP 复杂 度 的 分 区 、FPCA 硬件 
上 DSP 有 效 运 行 的 映射 、 一 个 合适 存储 器 架构 的 发 展 和 在 吞吐 量 、 斥 寸 和 能 量 
方面 设计 目标 的 实现 。 但 是 ， 读 者 理解 用 FPCA 实现 DSP 功能 的 细节 是 很 有 必要 
的 ， 这 是 为 了 在 系统 分 区 和 电路 架构 的 发 展 阶段 上 得 到 正确 的 推断 。 

比如 在 系统 的 分 区 上 ， 很 明显 ， 目 前 正在 研究 的 系统 消耗 的 资源 将 超过 专用 
乘法 器 的 可 利用 资源 。 然 后 设计 者 会 面临 许多 的 选择 ， 为 了 通过 使 用 LUT 和 专 
用 加 法 器 来 创造 额外 的 乘法 器 ， 要 么 限制 设计 空间 来 使 设计 映射 确保 仅仅 专用 乘 
法 器 的 资源 被 使 用 ， 要 么 将 映射 设计 到 目前 的 FPGA 资源 上 。 此 外 ， 实 际 上 ， 附 
加 的 乘法 运算 也 许 会 被 固定 系数 ， 这 意味 着 需要 较 少 LUT 的 常 系数 乘法 器 可 能 
会 得 到 使 用 。 

从 一 个 电路 架构 的 角度 看 ， 关 键 目标 是 为 了 实现 得 更 快 ， 在 这 个 实现 中 需要 
好 好 权衡 尺寸 和 速率 。 意 识 到 优化 可 用 在 生产 所 需 的 设计 中 是 很 必要 的 ， 因 为 这 
可 能 会 决定 FPGA 硬件 或 软件 之 间 设 计 的 权衡 ， 这 也 许 是 系统 的 一 个 关键 决策 。 
很 明显 ， 从 发 表 过 的 文章 中 可 以 看 出 ， 除 非 实施 大 量 的 细节 工作 来 调查 FPGA 实 
现 ， 否 则 这 一 决策 并 不 明显 ， 但 是 ， 这 明显 在 系统 中 并 不 实际 ， 因 为 设计 细节 会 
受到 严格 的 限制 。 事 实 上 ， 它 是 在 早期 的 基于 LUT 设备 的 有 效 映射 ， 比 如 第 一 
个 导致 实现 性 能 的 提升 超过 了 现存 DSP 处 理 器 设备 (Goslin 1995) 的 Xilinx 
XC4000 ， 这 为 一 些 DSP 功能 做 了 示范 ， 比 如 FIR 滤波 器 。 随 着 现今 的 综合 工具 
出 现 ， 许 多 这 种 优化 被 包含 于 综合 工具 中 ， 但 重要 的 是 要 理解 根本 原则 。 

最 后 ， 设 计 的 使 用 也 许 会 是 一 个 问题 : 确实 可 能 有 人 认为 一 个 经 济 的 设计 就 
应 该 这 样 ， 否 则 设计 者 会 选择 一 个 比 需要 更 大 的 FPGA 设备 ， 这 会 导致 成 本 增 
加 ! 在 这 种 情况 下 ， 实 现 设计 中 最 后 几 纳 秒 定时 的 最 优化 也 许 是 很 重要 的 方面 。 
当然 ， 大 多 数 的 优化 现在 逐渐 地 被 隐藏 在 了 综合 工具 中 。 
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一 个 简单 的 例子 是 运行 电路 的 设计 。 在 一 个 典型 的 设计 环境 中 ， 会 描述 这 个 
设计 为 一 个 有 限 状 态 机 (Finite State Machine，FSM) ， 每 个 状态 将 有 一 个 高 位 。 
综合 工具 将 此 视 为 一 个 热 编码 的 FSM 机 器 ,但 很 显然 ,通过 编写 一 个 寄存 器 链 
的 代码 ， 可 以 通过 使 用 预 设 其 中 一 个 触发 器 为 “1” 来 实现 。 这 从 FPGA 有 一 套 
预 设 触发 器 的 角度 来 理解 。 合 成 工具 可 能 会 生成 一 个 高 效 设计 ， 但 明确 的 是 , A 
成 工具 可 以 通过 编码 电路 中 的 关键 部 分 ， 以 直接 的 方式 来 删除 这 个 高 效 的 设计 。 
当然 ， 这 可 以 被 视 为 违反 编写 代码 尽 可 能 简洁 的 设计 原则 。 因 此 ， 本 章 的 重点 是 
详细 介绍 一 些 合理 的 细节 ， 这 些 技术 具体 的 设计 优化 ， 并 显示 功能 是 如 何 映射 到 
FPGA 结构 的 。 特 别 是 ， 本 章 将 着 眼 于 FPCA 存储 的 实现 ， 这 往往 是 许多 应 用 中 
的 一 个 关键 问题 。 此 外 ， 也 包括 采用 先进 的 设计 技术 在 DSP 中 的 应 用 ， 如 DA 和 
复 用 技术 用 于 建构 系数 特定 的 DSP 功能 。 


6.2 LUT 的 各 种 形式 


大 多 数 FPGA 供应 商 选择 LUT 作为 逻辑 基本 构件 的 原因 是 : 一 个 nn 输入 的 
LUT 能 实现 任何 n 输入 的 逻辑 功能 。 如 图 6-1 所 示 ， 与 逻辑 门 相 比 的 LUT 的 使 
用 在 设计 上 有 不 同 的 限制 。 比 如 ， 框 图 显示 功能 是 如 何 被 映射 到 逻辑 门 中 的 ， 其 
中 门 的 数量 是 有 设计 限制 的 。 从 LUT 的 实现 角度 来 看 这 并 不 重要 ， 但 是 ， 根 本 
标准 在 决定 LUT 的 数量 时 直接 与 输入 的 数量 相关 ， 以 及 有 时 候 与 设计 中 输出 的 
数量 相关 ， 而 与 逻辑 复杂 度 无 关 。 对 于 早期 的 Xilin 设备 ， 一 个 有 能 力 有 效 扩展 
到 5 输入 的 4 输入 LUT 是 核心 单元 , 但 是 在 最 新 的 Xilinx Virtex™-5 FPGA 技术 
中 ， 这 已 经 能 被 扩展 到 6 输入 的 LUT， 并 且 在 最 新 的 Altera Stratix® M FPGA 设备 
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- 
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图 6-1 映射 逻辑 功能 到 LUT 中 
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中 已 经 被 扩展 到 8 输入 LUT。 

但 这 仅仅 是 使 用 一 个 输入 LUT 作为 FPGA 的 主要 逻辑 模块 的 其 中 一 个 原 
因 。 图 6-2 所 示 的 Xilinx 公司 的 CLB 资源 FPGA 设备 ， 包 括 了 左边 的 两 个 LUT、 
右边 的 两 个 触发 器 及 中 间 快 速 进位 加 法 链 。 这 个 图 突出 了 左边 的 LUT 资源 怎么 
能 不 仅 被 用 作 一 个 LOT， 也 能 作为 运行 一 个 可 编程 移 位 的 移 位 寄存 器 及 一 个 
RAM 存储 单元 。 





图 6-2 CLB LUT 资源 的 多 种 功能 


LUT 被 用 作 一 个 移 位 寄存 器 的 基本 原则 在 Xilinx 应 用 手册 (Xilinx Inc. 2005) 
中 有 详细 的 介绍 。 第 一 ，LUT 可 以 被 认为 是 一 个 如 图 6-3 所 示 的 16: 1 数据 选择 
器 ， 其 中 输入 地 址 〈 这 里 一 个 4 位 输入 对 应 一 个 Xilinx Spartan 设备 ) 被 用 于 在 
RAM 中 具体 输入 的 存储 地 址 。 在 这 种 情况 下 ， 数 据 选择 器 会 被 当 作 已 经 是 固定 
的 数据 选择 器 。 例 如 ，Xilinx 的 16 位 移 位 寄存 器 SRL16， 配 置 固 定 LUT 值 来 代 
蔡 作为 一 个 可 寻 址 移 位 寄存 器 ， 如 图 6-3b 所 示 。 

移 位 寄存 器 输入 同 Xilinx Inc. (2005) 中 给 出 的 LUT 同步 RAM 配置 一 样 ， 
也 就 是 一 个 数据 输入 、 时 钟 和 时 钟 使 能 。LUT 使 用 一 个 在 Xilinx 库 中 叫 作 Q15 的 
特定 输出 ， 这 实际 上 是 由 最 后 的 触发 器 提供 的 输出 。 

设计 过 程 如 下 。 

设 定 一 个 地 址 0111 ， 存 储 坐标 的 值 作 为 一 个 输出 被 读 出 ， 同 时 ， 一 个 新 值 
被 读 人 ， 被 认为 是 一 个 新 的 输入 ， 如 图 6-3b 所 示 的 DIN。 如 果 下 一 个 地 址 是 
0000 并 且 地 址 值 递增 ， 则 直到 下 一 个 0111 地 址 会 花费 8 个 周期 ， 与 8 移 位 时 延 
一 致 。 用 这 个 方法 ， 地 址 的 大 小 就 能 够 模仿 移 位 寄存 器 的 时 延 大 小 。 因 此 并 不 会 
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像 移 位 寄存 器 一 样 移动 所 有 数据 ， 而 是 将 数据 静态 地 存储 在 一 个 RAM H, 并且 
变化 的 地 址 线 通过 在 正确 的 时 间 读 出 相关 数据 ， 来 模仿 移 位 寄存 器 的 结果 。 






0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111 
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图 6-3 - Xilinx CLB LUT 的 配置 (Xilinx Inc. 2005) (由 Xilinx Inc. 许可 复制 ) 
a) 16:1 数据 选择 器 b) 移 位 寄存 器 


逻辑 单元 SRL 结构 的 细节 如 图 6-4 所 示 ， 图 中 指 的 是 有 一 个 4 输入 LUT 的 
Xilinx Spartan FPGA 系列 。 这 个 单元 有 一 个 相关 的 触发 器 和 一 个 数据 选择 器 ， 二 
者 构成 整个 单元 。 和 触发 器 使 用 时 钟 来 提供 一 个 同步 写 人 的 功能 ， 并 且 附 加 的 数据 
选择 器 可 允许 一 个 DI 直接 输入 ， 或 者 如 果 一 个 大 的 移 位 寄存 器 可 以 被 实现 ， 则 
会 允许 来 自 上 面 单元 的 一 个 SHIFTIN 输入 。 地 址 线 能 被 动态 使 用 ， 但 是 在 同步 
设计 实现 中 ， 可 以 设想 它们 会 同步 于 时 钟 。 

这 对 DSP 系统 的 实现 有 巨大 启示 。 正 如 第 8 章 中 的 演示 ， 均 匀 性 DSP 运算 
通过 使 用 硬件 共享 来 减少 电路 面积 。 实 际 上 ， 这 在 原始 电路 中 会 导致 一 定 的 时 
延 ， 如 果 这 个 转换 会 导致 存储 的 巨大 提升 ， 那 么 所 有 降低 复杂 度 的 关键 方法 都 
已 经 失效 了 。 能 够 将 LUT 当 作 除了 目前 触发 器 以 外 的 移 位 寄存 器 来 使 用 ， 将 
得 到 一 个 高 效 的 实现 。 因 此 ， 为 了 实现 CLB 的 最 佳 利 用 ， 系 统 级 上 的 一 个 关 
键 设计 标准 是 为 了 平衡 触发 器 和 LUT 资源。 这 在 书 中 后 面 的 大 量 设计 中 可 以 
看 到 。 
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A[3:0] 


DI (BY) 


CE (SR) 
CLK 





或 YB 


图 6-4 详细 的 SRL 逻辑 结构 (Xilinx Inc. 2005) (由 Xilinx Inc. 许可 复制 ) 


6.3 可 用 的 几 种 存储 器 


FPGA 提供 许多 不 同类 型 的 存储 器 ， 从 模块 式 RAM 到 可 用 的 多 重 LUT 形式 
的 高 度 分布 式 RAM, ， 再 到 在 FPGA 构造 中 得 到 广泛 利用 的 触发 器 中 的 数据 存储 。 
正如 先前 章节 所 讲述 的 ，LUT 和 触发 器 存储 能 力 的 交换 能 得 到 实施 ， 但 这 只 是 对 
于 小 分 布 式 的 存储 器 。 也 许 会 有 需要 存储 大 量 输入 数据 的 情况 ， 比 如 在 图 像 处 理 
应 用 中 ， 图 像 的 数据 模块 ， 或 者 大 量 的 系数 数据 ， 比 如 在 一 些 DSP 应 用 中 ， 特 
别 是 已 经 使 用 运算 的 多 路 复 用 的 应 用 。 在 这 些 情况 下 ， 必 要 的 要 求 是 一 个 较 大 的 
模块 式 RAM。 

FPGA 系列 现在 采用 非常 大 的 板 载 RAM， 见 表 6-1。 此 表 给 出 了 来 自 Altera 
和 Xilinx 的 ， 类 似 DSP 的 FPGA 设备 的 细节 。 同 时 考虑 到 供应 商 高 端 系 列 的 Xil- 
inx Virtex™-5 和 Altera Stratix® FPGA 技术 , :可 以 总 结 出 模块 式 RAM 已 经 从 在 
FPGA 电路 中 占 较 小 比例 发 展 到 占 整个 电路 的 1/15 或 MX10。 典 型 的 ， 这 些 比 率 
对 于 逻辑 偏向 的 FPGA 系列 趋 于 更 低 。 除 了 较 小 分 布 式 存储 器 以 外 ，FPGA 系列 
也 控制 更 大 的 模块 式 RAM， 这 个 更 大 的 模块 有 着 一 个 优势 ， 那 就 是 它们 是 双 端 
口 的 ， 这 为 一 些 DSP 应 用 提供 灵活 性 。Virtex-5 模块 式 RAM 可 存储 36kbit 的 数 
据 ， 并 且 能 被 配置 为 两 个 独立 的 18kbit RAM, 或 者 配置 为 一 个 36kbit RAM, 4 
个 36kbit 模块 式 RAM 能 被 配置 为 一 个 64k x1 ( 当 与 一 个 邻近 的 36kb 模块 式 
RAM 串联 时 ) 32k x1, 16k x2，8k x4,，4k x9, 2k x18 BY 1k x36 存储 器 。 每 
个 18kb 模块 式 RAM 能 被 配置 为 一 个 16k x 1, 8k x2, 4k x4, 2k x9 或 lk x 18 
存储 器 。 
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表 6-1 Xilinx Virtex 4 #15 及 Spartan FPGA 和 Altera Stratix 及 
Cyclone FPGA 的 FPGA RAM 尺寸 的 比较 








模块 式 
& 5 型 
系 类 RAM (kbit) 
XCSVSX35T | 
XCSVSX95T 
Virtex 
XCAVSX25 
XC4VSX55 
XC3S100E 
Spartan 


XC3S1600E 





EP3SES0 
Stratix 
EP3SE260 
EP2CS5 
Cyclone 
EP2C70 


本 节 已 经 突出 了 在 两 个 一 般 的 FPGA 系列 中 存储 器 的 存储 范围 。 这 提供 了 一 
个 清晰 的 机 制 来 开发 一 个 存储 器 层次 结构 来 适应 广泛 的 DSP 应 用 。 在 图 像 处 理 
应 用 中 ， 系 统 的 不 同 部 分 需要 不 同 尺 寸 的 存储 器 。 比 如 ， 图 6-5 所 示 的 快速 运动 
估计 电路 ， 其 目的 是 为 了 在 专用 硬件 上 运行 高 度 复杂 的 运动 估计 (Motion Esti- 
mation, ME) 功能 。 图 6-5 显示 了 分 级 存储 器 系统 及 实现 这 种 系统 的 数据 带宽 
考虑 。 为 了 运行 ME 功能 ， 有 必要 下 载 当 前 块 〈Current Block, CB) 数据 和 尺 
才 ， 也 就 是 检索 窗口 (Search Window, SW) 到 本 地 存储 器 。 考 虑 到 典型 的 SW 
是 24 x24 像素 ，CB 尺寸 是 8 x 8 像素 并 且 一 个 像素 是 8bit， 这 与 典型 的 存储 在 
所 入 式 模块 式 RAM 中 3k 和 0. Sk 存储 器 文件 一 致 。 这 是 因为 艇 人 式 RAM 对 于 存 
储 这 种 数据 是 非常 有 效 的 机 制 ， 而 且 带 宽 速率 也 并 不 高 。 











12MB/s 48MB/s 12GB/s 
A^ ^ KB A 
Jes |] Is Led 
站 AEN 
ra d : SE. 
L4 f mj = fe 
| : 3 
ex 


低 带宽 连接 0.5KB 本 地 高 带 
宽 连 接 


图 6-5 运动 估计 下 核 的 数据 流 
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在 一 个 FPGA 实现 中 ， 也 许 有 必要 实现 大 量 的 硬件 模块 或 IP 核 ， 用 来 执行 
ME 运算 ， 因 此 也 许 会 要 求 执行 大 量 的 并 行 计 算 。 这 需要 使 用 较 小 的 内 存 ， 它 可 
以 是 较 小 的 分 布 式 RAM, ， 如 果 有 需要 ， 则 也 可 以 是 基于 LUT 的 存储 器 和 触发 器 。 
但 是 ， 问 题 并 不 仅仅 是 数据 存储 ， 还 有 如 表 6-1 中 阐述 的 较 高 数据 速率 。 更 小 的 
分 布 式 RAM、 基 于 LUT 的 存储 器 和 触发 器 ， 当 它们 拥有 各 自 的 接口 时 ， 能 提供 
很 高 的 数据 速率 。 这 个 数据 速率 可 与 更 大 的 RAM 相 媲 美 ， 事实 上 每 个 存储 器 的 
写 或 读 都 能 够 并 行 执行 ， 因 此 会 得 到 很 高 的 数据 速率 。 很 明显 ， 甚 至 在 一 个 具体 
应 用 中 ， 对 存储 器 大 小 和 数据 速率 都 有 明显 不 同 的 要 求 ， 使 用 不 同类 型 和 尺寸 的 
存储 器 ， 在 FPGA 中 是 很 重要 的 。 


6.4 固定 系数 设计 技术 


通常 需要 一 个 完全 可 编程 数据 选择 器 ， 这 也 是 FPCA 供应 商 现在 已 经 拥有 相 
当 数 量 的 FPCA 实现 的 原因 。 但 是 在 一 些 DSP 应 用 中 ， 有 时 候 需 要 通过 一 个 单一 
的 系数 值 执行 一 个 字 的 乘法 ， 比 如 在 一 个 固定 滤波 器 运算 中 ， 或 者 比如 DCT. 
FFT、DSP 变换 。 在 一 个 处 理 器 实现 中 ， 这 几乎 没有 作用 ， 但 是 在 专用 硬件 中 ， 
有 机 会 改变 执行 任务 所 需 的 硬件 复杂 度 ， 因 此 ， 专 用 系数 倍率 或 固定 系数 倍率 
(Fixed Coefficient Multiplication, KCM) 有 可 能 减少 电路 过 载 。 大 量 机 制 已 经 被 
用 于 派生 KCM。 这 些 包括 DA (Goslin 和 Newgard 1994) 、 字 符 串 编码 和 消 元 
(Cocke 1970, Feher 1993) 。 

这 个 观点 很 好 地 被 应 用 到 了 FPGA 设备 中 ， 其 中 只 有 LUT 和 专用 快速 加 法 
器 可 被 用 于 乘法 器 ， 因 此 在 实现 这 一 系列 定 值 系数 功能 中 获得 了 一 块 可 用 面积 
( Goslin 和 Newgard 1994, Peled 和 Lin 1974) 。 大 量 的 技术 已 经 演变 成 了 定 值 系数 
的 乘法 ， 而 大 量 的 FPGA 架构 以 专用 乘法 器 或 DSP 模块 的 形式 来 创建 专用 的 硬件 
板 载 乘法 器 ， 仍 然 是 值得 回顾 可 借鉴 的 方法 。 本 节 考 虑 了 被 用 于 单一 定 值 系数 的 
乘法 (Peled 和 Liu 1974) 的 DA 使 用 并 且 减 少 了 能 够 乘 以 一 系列 系数 值 (Turner 
和 Woods 2004) 的 系数 乘法 器 (Redued Coefficient Multiplication, RCM) 方法 。 


6.5 ”分布 式 体系 结构 


DA 是 执行 乘 加 运算 的 一 个 有 效 技 术 ， 其 中 乘法 被 重 构 ， 以 便 乘 法 和 加 法 同 
时 在 数据 和 单 系数 位 上 得 到 执行 。 这 项 技术 的 原则 是 基于 假设 我 们 会 储存 计算 的 
值 而 不 是 执行 计算 (FPGA 的 LUT 已 经 提供 了 这 个 功能 ) 。 

假设 在 式 (6-1) 中 进行 乘积 和 的 计算 ， 其 中 % 代表 一 个 数据 流 并 且 ay, 
ai，…，aw_1 代 表 一 系列 系数 值 。 我 们 能 使 用 LUT 来 生成 数据 并 且 使 用 快速 加 
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法 器 来 计算 最 后 的 乘法 ， 而 不 是 通过 与 门 来 计算 部 分 结果 。 一 个 8 输入 的 基于 
LUT 的 乘法 器 例子 如 图 6-6 所 示 ， 可 以 看 出 这 个 乘法 器 要 求 一 个 相当 大 的 4kbit 
LUT 存储 器 资源 。 


y= Daw, (6-1) 

当 系 数 固 定时 ， 对 存储 器 的 要 求 会 大 大 降低 (例如 从 512 位 到 8 fiz), ， 这 使 

FPGA 架构 有 一 定 的 吸引 力 。 一 种 典型 的 实现 是 使 用 一 个 如 图 6-6 所 示 的 基于 

LUT 的 乘法 器 电路 来 执行 乘法 agi 。 但 是 ， 可 通过 使 用 DA 产生 一 个 更 加 有 效 的 

结构 ， 在 Peled 和 Liu (1974), Meyer. Baese (2001), White (1989) 中 得 到 了 

详细 的 描述 。 根 据 White (1989) 中 描述 的 方法 得 到 下 面 的 分 析 。 在 以 下 的 分 析 
中 ， 记 下 系数 oo ap.. ，aw-1， 这 代表 一 系列 固定 系数 值 。 


x9^15 a5 X0~7 $8715 X8 一 15 q077? x0~7 4077 
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6-6 基于 LUT 的 8 输入 的 乘法 器 


假设 输入 数据 流 由 一 个 二 进 制 补 码 有 符号 数 x, 表示 ， 如 式 (6-2)。 
M-1 
x, =- + 9X. (6-2) 


j=1 


A, 02! 表示 数据 流 x, 的 第 个 样 值 的 第 j 位 ， 并 且 xS 表示 符号 位 ， 因 此 在 
等 式 中 表示 为 负数 ， 数 据 字 长 为 Mbit。y 的 计算 能 被 重 写 ， 如 式 (6-3). 


N-1 M-1 
y= Ya(-x, + $22) (6-3) 
i=0 j=l 
乘法 完全 扩展 可 以 得 到 式 (6-4). 
N-1 N-1 M-1 
y= ba(-5D + x2! (6-4) 
AU ic 


整理 后 得 
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y=ao( -aD) * ag (x42! +32? Tc a 4 


+a, ( -x°) *a, (x12! £2 +e par tod, 


ner ad 


Mas i03 4) Fag iC 12^ tx» 25 Kx B ra i 
整理 可 得 到 式 (6-5). 
` N-1 M-1 p N- | | 
y= + [Se (ab |2 (6-5) 


并 且 再 一 次 ， 扩 展 过 后 的 样子 给 予 了 怎么 得 到 如 下 重组 的 样子 的 一 个 清楚 的 
方法 。 
y=2°(a0( -20) +a, ( -x}) * +a, ( -XN-1)) 
+27! (agxl + aqxl + .= ay x) 


M-1 M-1 
+…+aN-IXN-i) 


考虑 到 系数 现在 是 固定 值 ， 式 (6-5) 中 的 Y, ^ a(i) 仅 有 2X 个 可 能 取 


i=0 i 
值 并 且 Co 20) 也 仅 有 2* 个 可 能 取 值 。 因 此 实现 能 被 存储 在 2 x2* 位 大 
小 的 一 个 LUT 中 ， 其 中 靠 前 的 8 位 可 以 代表 512 位 的 存储 。 
考虑 实现 中 N=4， 为 了 知道 它 怎 样 适 合 基于 LUT 结构 的 FPCA ， 就 给 出 了 
如 式 (6-6) 扩展 后 的 表达 式 。 
N-1 
2, ai) = ag(x0) *a,(309) & a4 (30) + a4(32) (6-6) 
这 显示 了 如 果 使 用 输入 x 作为 LUT 的 地 址 ， 那 么 存储 值 见 表 6-2。 通 过 重 排 
X (6-7) 来 实现 式 (6-8) 中 的 表达 式 ， 可 以 看 出 ， 这 个 计算 的 LUT 内 容 是 表 
6-2 中 储存 的 倒数 ， 并 且 能 够 通过 执行 二 进 制 补 码 的 减法 来 得 到 实施 ， 而 不 是 执 
行 加 法 。 通 过 围绕 一 个 加 法 器 来 轮流 计算 ， 这 个 计算 能 使 用 并 行 硬件 执行 或 顺序 
执行 ， 如 图 6-7 所 示 ， 其 中 计算 的 最 后 阶段 是 一 个 减法 运算 而 不 是 加 法 。 很 明显 
能 看 出 ， 这 种 计算 可 以 使 用 Xilinx 公司 的 FPGA 系列 的 基本 CLB 结构 ， 以 及 来 自 
Altera 的 4 位 的 LUT 来 储存 DA 数据 。 快 速 加 法 器 被 用 于 执行 加 法 运算 ,并 且 通 
过 使 用 触发 器 ， 数 据 能 得 到 储存 。 实 际 上 ， 一 个 CLB 能 执行 计算 的 一 “位 ”， 意 
味 着 现在 8 个 LUT 只 需要 用 比 并 行 结构 更 慢 的 速度 来 进行 计算 ， 这 都 归 因 于 计 
算 的 连续 性 。 


42741 (a xl 7! +a,x! 
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表 6-2 DA 计算 的 LUT 内 容 


= 
E 


R 
vo 
e 


a; +d 





a2 
[ 2] + do 
a, +a, 
a, +a, +a 
a3 
a; + dg 
a, +a; 
a; +a, +d 
a, +a, 
a3 +a, + o 


a} +a, +a, 


—-—|—-i-—-i--i-|i-|-|i-ioielileioeioioioio 


a; +a, +a; tà, 


2 
UN 


a;(x°) = ag(30) * a (30) + a4 (30) + a(x) (6-7) 
‘=0 


N-1 
Dail- a?) = 允 (-ao) +29(-a,) +43(- a2) +43(-a3) (6-8) 


i=0 

很 明显 看 出 ， 这 个 技术 为 一 系列 的 其 中 
一 部 分 是 固定 的 DSP 功能 提供 了 相当 大 的 优 
势 。 这 包括 一 些 固定 的 FIR 滤波 器 和 IIR 滤 
波 器 ， 一 系列 的 固定 变换 ， 也 就 是 DCT 和 
FFT 及 其 他 选 出 来 的 计算 。 这 个 技术 已 经 在 
别处 得 到 了 详细 的 介绍 (Peled 和 Liu 1974, 6-7 基于 DA 的 乘法 器 模块 框架 
Meyer- Baese 2001, White 1989) ， 并 且 一 大 部 分 的 应 用 笔记 可 从 FPGA 供应 商 的 
相关 主题 中 得 到 。 


6.6 折 减 系数 乘法 器 


DA 方法 已 经 取得 了 相当 大 的 成 功 ， 并 且 已 经 成 为 在 DSP 计算 中 使 用 早期 
FPGA 技术 的 重点 。 但 是 ， 此 技术 的 主要 限制 是 为 了 实现 面积 的 缩小 ， 系 数 必 须 
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是 固定 的 。 如 果 一 些 应 用 要 求 取 所 有 的 系数 ， 则 必须 使 用 一 个 完全 的 可 编程 乘法 
器 ， 这 在 早期 的 设备 中 是 很 昂贵 的 ， 因 为 它 必 须 是 目前 LUT 和 加 法 器 资源 的 结 
合 ， 虽 然 在 更 多 最 近 的 FPGA 系列 中 已 经 以 Xilinx Virtex™ -5 和 Altera Stratix® 
中 的 专用 DSP 硬件 形式 得 到 提供 。 但 是 ， 在 一 些 比如 DCT 和 FFT 的 应 用 中 ， 需 
要 有 限制 范围 的 乘法 器 。 这 里 仅 对 DCT 计算 进行 了 阐述 。 

DCT 是 一 个 重要 的 变换 ， 在 图 像 压缩 技术 中 得 到 了 广泛 的 使 用 。 二 维 DCT 
通过 将 一 个 模块 的 像素 变换 为 一 个 存在 于 模块 中 的 ， 与 空间 频谱 相关 的 系数 集合 
而 得 到 运行 ， 如 式 (6-9)。 

N-1 N-1 


y(k,l) = a(k)a(l) ` Y x(n,m)c(n,k)c(m,k) (6-9) 


n=0m=0 
HH, c(n,k) =cos[ (2n +1) vk/2N] H c(m,k) 2cos[ (2m * 1) v&/2N], FF Hk 
All 的 范围 是 0~V-l; (Halk) Mall) J&trog 2E E, WH, AA T AAIE 
分 离 性 质 ， 以 此 来 允许 其 被 分 解 为 两 个 连续 的 一 维 变 换 。 这 是 通过 使 用 比如 行列 
的 分 解 技 术 ， 在 两 个 一 维 变换 之 间 进 行 矩阵 变换 函数 得 以 实现 的 。 

一 个 入 点 一 维 变换 等 式 ， 涉 及 一 个 输入 数据 的 序列 x(i) ,i=0 >N-1 转变 
成 Y(k) ,k=0>N-1, Xx (6-10) 和 式 (6-11) 中 给 出 了 转换 过 程 。 


N-1 
Y(0) = a(0) Y x(i) (6-10) 
n=0 


N-1 
E r ka(2i +1) = eee = Š 
Y(k) = alk) Y, x(i) 0s [ EE | vk Ll c (e 


KP, a(0) =1//N, Web alk) =2/VN。 将 等 式 扩展 为 一 个 矩阵 形式 ， 可 以 得 
到 以 下 矩阵 向 量 计算 。 
YA 证 加 
WA 
Y, C; C; Le C; ss C; 23 C; Es C; C; C; X, 
Y, Ga .-C, -C, -G G C, C -C,| Xs 
WA um». ee -C 4 G C-C IIS 
wi ig -G © © 0 «8 - or Gl 
Y, C; £ C; C; -- C; "x C; C i C C; X; 
YE w- Geb ole ob 3.45 oN 
(6-12) 
在 其 目前 的 形式 中 ， 和 矩阵 向 量 的 计算 要 求 64 个 乘法 及 63 个 加 法 来 计算 了 向 
E. 但是， 大 量 的 研究 工作 已 经 通过 输入 数据 的 预计 算 来 降低 DCT 的 计算 复杂 
度 ， 以 此 来 减少 乘法 的 数量 。 这 样 一 个 由 Chen 等 (1977) 提出 的 方法 实现 了 式 
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(6-13) 给 出 的 形式 。 这 些 类 型 的 优化 是 可 能 的 ， 并 且 一 系列 这 样 的 变换 同时 为 
一 维 类 型 (Hou 1987, Lee 1984, M -T- Sun 等 1989) 及 直接 二 维 实现 的 DCT 而 
存在 (Duhamel 等 1990, Feig 和 Winograd 1992, Haque 1985, Vetterli 1985) 。 


E) "UGG Ro 6 6 ooy OR 
Xl ia tc ou e$" p^ @ ——X* TX X 
Eq mood Oe ee, 
El ou. 6 0 0 XX DESS 
Peo .. 39 o8 
Wl (6 Boe on ux 
Shilo 4a X ye 
xJld w^ üU Pig 


st (6-13) 可 在 一 个 电路 中 实现 ， 
在 这 个 电路 中 一 个 完全 的 可 编程 乘法 器 和 
加 法 器 的 结合 能 被 用 于 实现 等 式 的 一 行 或 
一 列 ， 或 者 可 能 随 着 一 个 完整 的 电路 得 到 
实现 。 但 是 ， 不 幸 的 是 乘法 器 在 被 乘 数 上 
只 能 使 用 4 个 独立 值 ， 如 图 6-8 所 示 。 这 
显示 了 理想 情况 下 ， 我 们 需要 一 个 能 处 理 
3 个 独立 值 的 乘法 器 。 另 一 选择 是 使 用 
DA 方法 ， 其 中 任意 32 个 独立 DA 乘法 器 
能 被 用 于 实现 矩阵 计算 。 还 有 一 个 选择 是 图 6-8 降低 了 复杂 度 的 乘法 器 
使 用 8 个 DA 乘法 器 来 实现 硬件 的 减少 ， 但 是 数据 流 会 比较 复杂 ， 这 都 是 为 了 在 
正确 的 时 间 加 载 正确 的 数据 。 拥 有 DA 乘法 复合 乘法 器 是 有 吸引 力 的 ， 这 将 乘 以 
有 限 范围 内 的 乘 数 ， 从 而 将 硬件 复杂 度 与 计算 的 所 需 条 件 做 交换 ， 这 正 是 Turner 
和 Woods (2004) 开发 的 RCM 乘法 器 实现 的 。 


6.6.1 RCM 的 设计 过 程 


先前 有 关 章 节 突 出 了 DA 的 功能 性 如 何 能 被 映射 到 一 个 基于 LUT 的 FPGA d 
术 中 。 实 际 上 ， 如 果 将 乘法 器 看 作 一 个 产生 积 的 结构 并 使 用 一 个 加 法 器 树 来 求 
和 ， 以 此 产生 一 个 最 后 的 输出 ， 那 么 拥有 固定 系数 及 如 DA 中 提议 的 组 织 计算 ， 
将 影响 映射 LUT 中 的 乘积 项 和 加 法 器 树 的 高 度 功能 性 。 本 质 上 ， 这 是 实现 了 主 
要 的 面积 上 的 获 利 。 

在 图 6-9 中 该 观点 得 到 了 阐述 ,虽然 这 只 是 浅 层 次 的 阐述 , 但 因为 实际 
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“与 ”和 加 法 运算 不 是 在 硬件 中 被 执行 的 ， 所 以 会 预计 算 “ 与 ”和 加 法 运算 。 但 
是 ， 这 给 予 我 们 如 何 能 映射 额外 功能 性 到 此 方法 核心 部 分 的 基于 LUT 的 FPGA 
上 一 个 新 视角 。 





图 6-9 基于 DA 的 乘法 器 模块 框图 


fr DA 实现 中 ， 主 要 是 映射 尽 可 能 多 的 加 
法 树 到 LUT 中 。 如 果 我 们 考虑 将 一 个 常 系数 乘 
法 器 映射 到 同样 容量 的 CLB 中 ， 那 么 主要 的 要 
求 是 映射 快速 进位 逻辑 的 EXOR 功能 到 如 图 6- 
10 所 示 的 LUT 中 。 这 不 会 和 DA 实现 一 样 有 
效 ， 但 是 现在 多 余 的 输入 能 被 用 于 实现 其 他 功 
能 ， 如 图 6-11 所 示 。 这 是 我 们 创建 实现 电路 
过 剩 结构 的 出 发 点 〈 以 便 实 现 附 加 功能 ) 。 

图 6-11a 实现 4+B 或 4+C 的 功能 ; 图 图 6-10 映射 乘法 器 功能 
6-11b 实 现 4-B 或 4-C 的 功能 ; 图 6-11e X 到 Virtex 4 CLB 中 
现 4+B 或 4-C 的 功能 。 这 就 产生 了 如 图 6-12 所 示 的 一 般 性 结构 的 观点 ， 并 且 
Turner (2002) 给 出 了 一 个 自动 产生 这 些 结构 的 详细 处 理 方法 。 在 这 里 我 们 使 用 
一 个 直观 的 方法 来 显示 通过 使 用 它 的 技术 来 映射 DCT 的 功能 性 ,但 是 要 注意 这 
不 是 在 Turner (2002) 中 使 用 的 技术 。 


S S S 
: TEE 
B B B 
So So (u-) So 
A A A 


a) b) c) 


图 6-11 通过 使 用 基于 乘法 器 的 设计 技术 可 能 的 实现 
a) 第 1 个 单元 b) 第 2 个 单元 c) 第 3 个 单元 
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专用 的 资源 
S 算法 或 者 延 时 


图 6-12 技术 的 一 般 化 ， 其 中 入 输入 功能 的 集合 被 映射 到 一 个 M 输入 的 
LUT 上 并 且 多 余 的 M-NN 输 入 被 用 于 功能 选择 


一 些 简单 的 例子 被 用 于 演示 如 图 6-11 所 示 的 单元 是 如 何 被 连接 在 一 起 来 构 
建 乘法 器 的 。 图 6-13 所 示 电 路 ， 可 以 实现 一 个 输入 乘 以 两 个 系数 ， 也 就 是 45 或 
15。 符 号 x x2" 代表 左 移 n 位。 此 电路 由 两 个 2 +1 乘法 器 串联 构成 ， 主 要 利用 
了 45 xx 和 15 xx 的 公 因 子 是 5 xx 的 特点 。 第 一 个 单元 执行 5 xx， 然 后 第 二 个 
单元 通过 添加 位 移 2 (2!) 或 8 (2°) 来 执行 进一步 的 乘 9 或 乘 3 运算 ， 这 要 依 
靠 乘法 器 控制 信号 的 设置 (15/45 标志 ) 。 移 位 运算 不 要 求 任 何 硬件 支持 ， 因 为 
在 FPCA 中 可 以 像 路 由 一 样 得 到 实现 。 















xx45 (1011017) 
x9(001) ”|[ 或 *x15= (1111>) 
或 x3 (112) 


x5 (1015) 
图 6-13 通过 45 sk 15 的 乘法 器 


图 6-14 所 示 为 乘 以 45 RR 
以 素数 23 的 一 个 电路 。 在 这 里 
不 能 使 用 公 因子 ， 而 是 使 用 对 45 
进行 不 同 的 因子 分 解 ， 与 三 步 操 TTT 
作 相 比 ， 仅 一 步 操作 就 可 得 到 
15， 使 用 减法 来 产生 15 这 个 乘 
法 ， 也 就 是 (16 -1) 。 设 置 第 二 EO Rae wes 
个 单元 ， 来 添加 从 第 一 个 单元 而 来 的 多 个 输出 ， 或 者 添加 可 移 位 的 输入 x。 使 所 
得 的 乘法 器 实现 这 两 个 所 需 的 系数 来 作为 KCM 的 系数 ， 而 不 需要 重新 配置 。 另 
外 ， 此 例 给 出 了 某 个 指示 ， 那 就 是 有 许多 不 同 的 方法 可 以 映射 出 想 要 的 系数 集 
合 ， 并 排列 单元 以 便 获得 一 个 有 效 的 乘法 器 结构 。 

在 Turner 和 Wood (2004) 中 ,作者 已 经 推导 出 了 可 实现 最 佳 解决 方案 的 方 






| x15 (11115) 
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法 ， 这 是 对 考虑 之 中 的 特殊 FPGA 结构 而 言 的 。 第 一 步 涉 及 识别 图 6-11 中 所 示 
的 所 有 单元 类 型 。 这 些 仅 仅 是 显示 Xilinx Virtex™- I 系列 的 一 个 小 样本 。 单 元 的 
范围 取决 于 LUT 输入 的 数量 及 专用 硬件 资源 。 下 一 步 是 进行 系数 编码 ， 以 确定 
最 有 效 的 结构 ， 这 证 明 是 有 符号 的 数字 (标准 差 ) 编码 。 因 此 这 些 系数 得 到 编 
码 并 产生 移 位 的 有 符号 数字 (Shifted Signed Digit，SSD)， 然 后 被 分 组 来 发 展 最 
后 RCM 电路 的 树 结构 。 原 型 C ++ 软件 得 到 了 发 展 来 使 这 个 过 程 自动 化 。 


6. 6.2 FPGA 的 乘法 器 综述 


DA 技术 已 经 被 证 明 ， 可 以 在 固定 系数 功能 的 应 用 中 良好 运行 。 正 如 在 第 2 
章 中 看 到 的 ， 这 不 仅仅 对 固定 系数 的 运算 有 限制 ， 比 如 固定 系数 的 FIR 滤波 器 和 
IR 滤波 器 ， 而 且 在 如 DCT 和 FFT 的 固定 变换 中 也 有 应 用 。 但 是 后 者 为 RCM ix 
计 技 术 提 供 了 一 个 更 好 的 解决 方法 ， 因 为 主要 的 要 求 是 发 展 乘 以 一 个 范围 内 系数 
的 乘法 器 ， 而 并 不 是 乘 以 一 个 单一 值 。RCM 技术 已 经 在 DCT 及 一 个 多 相 滤 波 器 
中 做 了 演示 ， 这 个 滤波 器 在 性 能 方面 ， 与 其 他 基于 DA 技术 实现 的 定 值 DSP 功能 
的 质量 相当 (Turner 和 Woods 2004, Turner “ 2002) 。 

必须 说 明 FPGA 架构 中 的 变化 ， 主 要 发 展 Xilinx Virtex™-5 FPGA 技术 中 的 
DSP48s 和 最 新 的 Altera Stratix ® M FPGA 设备 中 的 DSP 功能 模块 ， 它 们 都 已 经 减 
小 了 构建 固定 系数 甚至 是 限制 系数 的 范围 结构 ， 将 它们 作为 专用 的 乘法 器 为 基础 
的 硬件 模块 提供 更 优越 的 性 能 。 然 而 ， 在 可 能 的 情况 下 ，FPCA 资源 是 有 限 的 ， 
并 且 将 这 些 技术 配合 流水 线 使 用 ,会 导致 这 些 专用 模块 用 同样 速率 来 实现 性 能 。 
因此 ， 要 求 了 解 这 些 目前 的 技术 是 很 有 用 的 。 


6.7 总 结 


本 章 目的 在 于 介绍 一 些 技术 ， 特 别 是 着 眼 于 映射 到 特定 FPGA 平台 的 DSP 系 
统 的 技术 。 许 多 人 会 认为 ， 在 改进 技术 及 缩小 生产 率 差 距 的 这 段 时 期 ， 我 们 应 该 
完全 远离 设计 方法 这 个 方面 。 虽 然 这 种 观点 是 好 的 意向 ， 但 是 在 许多 的 情况 下 ， 
详细 的 实现 方法 在 实现 实际 的 电路 中 变 得 更 重要 了 。 

如 图 6-5 所 示 的 设计 例子 中 的 图 像 处 理 实现 ， 一 个 合适 的 硬件 架构 的 派生 是 
在 速度 与 尺寸 方面 ， 理 解 什么 是 在 根本 资源 的 基础 上 派生 的 。 因 此 对 实际 FPGA 
限制 有 清晰 的 理解 在 发 展 一 个 合适 的 架构 中 是 很 重要 的 。 一 些 其 他 的 固定 系数 技 
术 也 许 在 应 用 中 有 用 ， 但 在 这 些 应 用 中 硬件 是 被 限制 的 ， 并 且 也 许 使 用 者 希望 可 
以 在 应 用 的 其 他 部 分 的 DSP 资源 之 间 做 交换 。 虽 然 没 有 在 本 章 中 特别 介绍 ， 但 
是 高 效 的 FPGA 实现 的 一 个 关键 方面 是 高 效 的 设计 风格 的 发 展 。 一 个 好 的 处 理 方 
法 由 Michael Keating 和 Pierre Bricaud 在 他 们 的 Reuse Methodology Manual for System — 
On - A - Chip Designs ( Keating 和 Bricaud 1998) 中 给 出 。 该 文章 的 主题 是 突出 大 
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量 优秀 的 设计 风格 ， 这 些 设 计 风 格 应 该 被 有 效 的 HDL 代码 创建 ， 在 SoC 平台 上 
实现 。 除 了 好 的 HDL 编码 指示 外 ， 本 文 也 提供 了 混合 时 钟 边沿 的 一 些 关键 的 建 
议 ， 发 展 了 复位 和 使 能 电路 及 门 控 时 钟 的 方法 。 这 些 是 很 有 必要 的 ， 但 是 有 读者 
认为 ， 这 本 书 的 视野 集中 在 一 个 高 层次 电路 架构 的 产生 上 。 
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$73 FPGA 的 快速 DSP 系统 设计 
工具 和 流程 


7.1 引言 


由 硅 集 成 技术 中 不 间断 成 长 激励 的 计算 架构 的 革新 已 经 出 现 了 大 量 新 的 DSP 
实现 技术 的 发 展 。 这 些 平台 包括 单 芯片 多 处 理 器 或 多 样 化 SoC 的 解决 方案 及 
FPGA。 正 如 第 1 章 所 突出 的 ， 对 这 种 技术 中 计算 架构 的 革新 已 经 有 许多 年 了 ， 
通过 使 用 它们 ， 已 经 超过 了 设计 者 独自 实现 DSP 系统 的 能 力 。 这 个 观点 已 经 被 
流行 地 称 作 设计 生产 率 差 距 (IRTS 1999), ， 并 且 产 生 它 的 主要 原因 在 工业 向 实现 
SoC 设计 流程 驱动 中 是 一 个 主要 限制 因素 。 这 推动 电子 设计 自动 化 工业 重新 考虑 
系统 设计 的 观念 (Keutzer 等 2000, Lee 等 2003, Rowson 和 Sangiovanni Vincentelli 
1997 ) 。 

现代 的 DSP 实现 平台 由 多 样 化 的 处 理 架 构 混合 组 成 ， 包 括 微 控制 器 单元 
(Microcontroller Unit, MCU) 15 + 诺 依 曼 似 的 处 理 架构 ， 增 加 计算 能 力 的 处 理 
器 ， 比 如 VLIW DSP 微 处 理 器 ， 或 者 为 有 效 实现 任务 的 专用 硬件 。 现 代 FPGA 的 
革新 意味 着 它 是 作为 一 个 实现 平台 的 潜在 候补 ， 要 么 是 作为 一 个 独立 的 SoPC, 
要 么 是 作为 一 个 对 现 有 基于 软件 平台 的 补充 。 基 于 FPGA 的 散人 入 式 平台 提出 全 新 
的 并 且 更 加 复杂 的 实现 发 表 给 设计 者 ， 这 都 是 归 因 于 缺少 一 个 有 定义 的 处 理 
架构 。 

这 个 有 着 广泛 目标 的 处 理 架构 和 相应 的 实现 技术 使 得 DSP 系统 在 目前 的 设 
计 抽 象 阶段 得 以 实现 是 一 个 很 费力 的 任务 。 因 此 ， 连 贯 迅 速 的 实现 框架 的 使 用 是 
很 关键 的 ， 这 种 框架 直接 将 一 个 行为 系统 转化 成 一 个 嵌入 式 的 表现 形式 。 本 章 概 
括 了 目前 对 这 个 问题 的 解决 方法 。 

一 般 的 ， 基 于 现代 佬 入 式 系统 的 设计 观念 在 迅速 地 成 长 普及 。 这 个 观念 是 对 
大 量具 体 设 计 方 法 论 类 型 和 工具 的 概括 ， 它 为 了 算法 行为 的 表达 促进 了 语义 定义 
良好 建 模 语言 的 使 用 。 每 个 模型 类 型 的 语义 都 得 到 开发 来 提供 迅速 的 实现 能 力 。 
正如 这 些 ， 对 任何 的 设计 方法 ， 它 们 都 有 两 个 重要 的 方面 ， 即 因为 算法 规范 使 用 
的 特殊 计算 模型 (Model of Computation，MoC ) ， 以 及 用 于 引 向 一 个 实现 这 些 模 
型 的 细 化 的 方法 学 。 本 章 将 概述 特别 是 在 这 些 领 域 的 主要 发 展 。 

从 这 之 后 ，FPGA 专门 的 系统 综合 有 许多 问题 。 有 三 点 在 目前 的 可 编程 逻辑 
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体系 中 是 最 突出 的 ， 即 专用 硬件 IP 核 和 核心 网 络 的 综合 ; 对 多 重 处 理 器 架构 的 
软件 综合 ; 以 及 最 后 的 为 了 引导 和 自动 实现 一 个 在 分 层 FPGA 架构 上 给 出 的 应 用 
的 大 规模 系统 级 设计 。 这 三 个 方面 在 每 个 领域 中 有 大 量 的 典型 设计 工具 来 处 理 。 

本 章 由 以 下 几 部 分 组 成 。 对 某 些 设计 方法 和 工具 流行 和 需要 的 原因 与 FPCA 
设备 的 革新 高 度 地 连接 起 来 ， 并 且 这 个 动机 将 在 7. 2 节 中 会 有 概述 。 以 上 概述 的 
使 能 工具 集 的 基础 设计 方法 和 建 模 语言 将 在 7. 3 节 中 会 有 介绍 。7. 4.3 节 中 将 介 
绍 这 种 模型 化 和 迅速 实现 技术 是 如 何 为 单个 和 多 处 理 器 软件 综合 得 到 开发 利用 
的 。 对 于 I 了 P 核 和 核心 网 络 综合 的 工具 和 技术 将 在 7.5 节 中 会 有 介绍 。7. 6 节 将 集 
中 介绍 自动 生成 的 多 样 化 FPGA 架构 及 映射 算法 规范 到 这 些 架 构 上 的 工具 。 


7.2 FPGA 系统 设计 的 革新 


自从 第 一 台 设 备 出 现 以 来 ， 由 FPGA 制订 的 非 传统 革新 途径 已 经 强烈 地 影响 
了 设计 方法 和 现代 设备 的 工具 要 求 。 我 们 认为 有 三 个 明显 的 “FPGA 的 时 代 ”， 
它们 每 一 个 都 拥有 自己 独特 的 设备 设计 和 编程 方法 。 


7.2.1 时 代 一 : 定制 胶合 逻辑 

M FPGA 第 一 次 出 现时 ， 在 单个 设备 上 逻辑 资源 的 相对 缺乏 (通过 今天 的 标 
WE) 意味 着 极 少 的 实质 性 功能 能 在 单个 芯片 上 实现 ， 但 是 它们 的 编程 本 质 意味 
着 FPGA 成 为 了 多 芯片 ASIC 处 理 平台 的 可 定制 胶合 逻辑 理想 的 主 设备 。 低 等 级 
的 复杂 度 意味 着 使 用 芯片 架构 和 功能 性 的 门 级 基于 原理 图 的 捕获 能 用 足够 高 的 生 
产 率 实现 简单 芯片 的 架构 。 同 样 的 ， 在 那 段 时 期 ， 基 于 原理 图 的 门 级 设计 是 很 流 
行 的 。 
7.2.2 WRZ: 中 密度 逻辑 


随 着 新 一 代 的 FPGA 设备 的 采用 ， 比 如 Xilinx XC4000 和 Virtex 设备 ， 以 及 
Altera Stratix 设备 ， 可 实现 的 逻辑 密度 级 别 随 着 摩尔 定律 持续 提高 。 再 加 上 并 行 
的 潜在 例外 的 高 级 别 ， 意 味 着 FPGA 逐渐 从 一 个 简单 的 胶合 逻辑 使 能 设备 转变 成 
复杂 DSP 组 件 的 主机 ， 比 如 滤波 器 和 变换 式 。 这 个 革新 使 得 工业 为 高 性 能 DSP 
IP 核 的 发 展 得 到 提高 。 这 个 趋势 随 着 比如 来 自 Xilinx 的 Virtex Fil Virtex™ -2 X 
列 的 FPGA 和 来 自 Altera 的 Cyclone 设备 上 的 乘法 器 、 加 法 器 和 存储 器 高 性 能 小 
组 件 的 引入 持续 着 。 因 为 这 些 设备 而 提高 的 设计 复杂 度 意味 着 像 Xilinx ISE 的 寄 
存 器 传送 级 (Register Transfer Level, RTL) 设计 工具 和 像 VHDL 一 样 的 语言 的 
出 现 ， 补 充 了 RTL 级 综合 工具 的 出 现 来 将 EDIF 转换 到 FPCA 编程 文件 中 。 

这 个 阶段 导致 了 大 量 IP 核 的 一 个 遗留 问题 ， 以 及 对 与 核心 网 络 结构 设计 工 
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具 相 关联 的 需要 已 经 在 目前 的 FPGA 设计 方法 和 工具 中 持续 地 扮演 着 一 个 重要 的 
角色 。 这 些 在 7. 5 节 中 会 考虑 到 。 


7.2.3 时 代 三 : 分 层级 的 SoC 


Virtex™ -2 Pro 和 Stratix FPGA 设备 的 出 现 意味 着 传统 FPGA 可 编程 逻辑 是 
通过 比如 在 VirtexIM - 2 Pro 中 的 PowerPC ie A xt fit Zh FE SERI LL AI Xilinx Rocket 
IO 的 高 速 专用 串 行 通信 收发 器 来 补充 的 。 从 那 以 来 直到 目前 ，FPGA 及 其 性 能 
容量 和 灵活 性 已 经 一 起 成 为 单个 芯片 分 级 处 理 的 解决 方法 ， 这 意味 着 它们 能 被 安 
置 在 DSP 系统 的 核心 处 而 不 是 作为 一 个 附加 的 加 速 器 。 

设备 性 能 要 求 中 实质 性 的 飞 路 同样 在 FPGA 设计 工具 能 力 中 也 是 实质 性 的 进 
步 。 这 些 设备 的 能 力 现在 并 不 是 直接 与 SoC ASIC 的 解决 办 法 连接 在 一 起 ， 同 时 
这 些 设备 的 性 能 是 相似 的 ， 它 意味 着 FPGA 设计 界 必 须 在 多 处 理 器 软件 设计 、 核 
心 网 络 结构 、 分 级 系统 综合 及 高 速 关闭 和 开启 通信 网 络 的 设计 方面 采用 新 的 技 
术 。 不 幸 的 是 ， 这 项 技术 并 不 容易 。 

从 第 一 代 FPGA 到 第 二 代 FPGA 的 演进 ， 是 借助 于 业界 内 从 门 级 电路 到 RTL 
级 电路 的 发 展 而 顺利 完成 的 ， 而 类 似 的 从 第 二 代 到 第 三 代 演 进 的 推动 技术 还 没有 
形成 。 在 FPGA 中 ， 这 种 技术 应 该 解决 IP 核 综 合 与 核心 网 络 构建 ， 多 处 理 器 系 
统 设计 ， 以 及 系统 集成 与 优化 问题 。 不 幸 的 是 ， 这 些 初级 的 设计 工具 ， 比 如 Xil- 
inx Embedded Development Kit (EDK) 和 Altera SoPC Builder， 仅 仅 提 供 这 些 领 域 
的 基本 功能 。 这 一 章 的 剩余 部 分 概述 了 目前 最 先进 的 工具 和 每 一 个 领域 中 的 实践 
练习 ， 是 从 全 局 系统 设计 方法 角度 开始 的 〈7.3 节 ) ， 然 后 将 讲解 多 重 处 理 器 软 
件 的 综合 、IP 核 和 核心 网 络 综合 (7.5 节 ) ， 最 后 7.6 节 将 介绍 异 构 多 重 处 理 器 
架构 的 设计 和 综合 。 


7.3 FPGA DSP 设计 方法 的 必要 条 件 


系统 设计 方法 已 经 主要 地 分 为 了 三 个 类 别 ， 也 就 是 硬 软件 的 合作 设计 
( Hardware - Software Codesign, HSC) 、 功 能 架构 的 合作 设计 (Function Architec- 
ture Codesign, FAC), ， 如 图 7-1b 所 示 ， 以 及 基于 平台 的 设计 (Platform Based De- 
sign, PBD), ， 如 图 7-1a 所 示 (Keutzer 等 ) 。 

PBD 理念 跟随 经 典 的 Y 图 表 方 法 到 系统 设计 ， 其 中 一 个 域 的 算法 被 映射 到 
一 个 相对 固定 的 结构 平台 上 (尽管 它 也 许 是 以 许多 专 有 的 方法 量 身 定 做 的 )。 这 
个 平台 被 当 作 是 一 个 “灵活 的 ”集成 电路 ， 在 那里 为 了 一 个 特殊 的 应 用 客 制 化 ， 
是 通过 对 一 个 或 更 多 的 芯片 组 件 “ 编 程 ”来 实现 。 
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图 7-1 PBD 和 FAC 设计 流程 
a) PBD 图 表 b) FAC 
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7.4 系统 详 述 


在 7.1 节 中 应 该 注意 的 是 在 所 有 系统 设计 过 程 中 一 个 关键 的 共同 方面 是 计算 
类 语言 的 明确 定义 的 模式 中 应 用 的 模式 的 。 在 接 下 来 设计 过 程 和 工具 的 介绍 中 ， 
很 明显 这 些 都 遵从 这 个 原则 。 


7.4.1 Petri 网 


Petri 网 (Murata 1989) 是 一 个 加 重 的 、 定 向 的 二 分 图 表 ， 包 含 位 置 和 转变 ， 
如 图 7-2 所 示 。 

随 着 符号 经 转换 在 位 置 之 间 移动 ， 位 置 中 (图 7-2 中 的 P ~ Py) BETA 
号 。 如 果 转 换 的 输入 位 置 有 一 个 规定 的 符号 最 小 数量 ， 那 转换 (图 7-2 PH T, 
MT) 是 可 行 的 ， 在 最 小 数量 点 上 ， 符 号 的 规定 数量 会 被 移出 输入 位 置 ， 并 且 
一 个 规定 数量 会 被 插 人 到 输出 位 置 中 。 一 个 Petri 网 的 状态 通过 位 置 中 符号 的 配 
置 来 定义 ， 与 网 络 的 激励 或 转换 规则 一 起 决定 来 自 目前 状态 的 下 一 个 状态 。 





图 7-2 Petri 网 络 


7.4.2 进程 网 络 和 数据 流 


目前 最 流行 的 数据 流 语 言 的 根 坐 落 在 Kahn 进程 网 络 (Kahn Process Network , 
KPN) 模式 (Kahn 1974) 中 。KPN 模式 描述 了 经 单 向 的 FIFO 队列 的 一 套 并 行 
进程 ， 或 者 “计算 站 ”通信 。 一 个 计算 站 通过 使 用 局 部 存储 器 ， 在 一 个 或 所 有 
它 的 输出 线路 上 产生 输出 来 消耗 沿 着 它 的 输入 线路 到 来 的 数据 符号 。 在 DSP A 
统 中 ， 符 号 通常 是 数字 化 的 输入 数据 值 。 持 续 地 输入 到 系统 中 产生 输入 数据 流 ， 
促进 了 计算 站 在 系统 输出 上 产生 数据 流 。KPN 的 一 般 结构 如 图 7-3 所 示 。 在 
KPN 中 每 个 输入 样 值 具体 计算 功能 重复 应 用 的 语义 使 得 这 个 建 模 方法 很 好 地 匹 
配 了 DSP 系统 的 运行 习惯 。 
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图 7-3 简单 的 KPN 结构 


在 数据 流 进程 网 络 ( Dataflow Process Network, DPN) 模式 中 (Lee 和 Parks 
1995), KPN 模式 与 语义 因为 计算 站 (在 这 里 作为 一 个 触发 器 ) 的 运转 一 起 得 到 
扩张 。 一 系列 参与 的 激励 被 定义 为 一 个 特别 的 Kahn 进程 的 类 型 叫 作 数据 流 进 
程 ， 在 那里 每 个 激励 都 从 输入 符号 映射 到 输出 符号 ， 并 且 连 续 地 映射 输入 流 到 输 
出 流 。 制 定 激 励 规 则 是 为 了 确定 每 个 触发 器 应 该 怎样 激发 及 什么 时 候 激发 。 特 别 
的 ， 触 发 器 激励 会 耗 尽 输入 符号 并 且 产 生 输 出 符号 。 一 套 连续 的 激励 规则 因为 每 
个 触发 器 而 存在 ， 并 且 定义 触发 器 激发 时 的 输入 数据 条 件 。 考 虑 到 DPN 坚实 的 
计算 基础 ， 它 描述 了 触发 器 如 何 激励 和 通信 ， 大 量 的 应 用 在 这 个 一 般 主题 上 的 改 
进 已 经 得 到 了 提议 。 三 个 特殊 的 变 式 在 这 一 节 是 特别 重要 的 ， 它 们 分 别 是 同步 数 
据 流 (Synchronous Dataflow，SDF) 、 环 形 静 态 数据 流 (Cyclo Static Dataflow, CS- 
DF) 和 多 方位 同步 数据 流 (Multidimensional Synchronous Dataflow, MSDF) 它们 
的 功能 在 后 面 章 节 会 得 到 开发 利用 。 

正如 先前 概述 的 ， 大量 不 同 的 MoC 语言 通常 为 了 能 人 式 系统 ， 特 别 是 FP- 
GA， 在 现代 系统 级 设计 工具 中 得 到 了 普遍 利用 。 确 实 ， 比 如 统一 的 建 模 语言 
UML 的 规范 化 成 果 企 图 将 这 些 模 式 的 相互 作用 规范 化 。UML 拥有 各 个 领域 的 系 
统 说 明 ， 它 们 每 一 个 都 揭示 了 不 同 的 系统 特点 并 且 都 适合 于 描述 一 个 不 同类 型 的 
系统 。 虽 然 有 大 量具 体 的 系统 例子 可 能 比 手 编程 序 的 效率 还 低 ， 但 在 一 系列 系统 
H, 迅速 的 实现 仍然 会 产生 足够 有 效率 的 产品 ， 这 节约 了 设计 时 间 。 大 量 的 这 种 
方法 对 单 处 理 器 的 软件 综合 开发 出 这 些 技 术 ， 并 且 多 处 理 器 的 架构 在 接 下 来 会 有 
概述 。 


7.4.8 嵌入 式 多 处 理 器 软件 综合 


许多 联系 着 UML 的 工具 ， 比 如 来 自 Artisan 的 Real Time Studio ( Artisan Soft- 
ware Tools Ltd 2004) 和 来 自 I-Logix 的 Rhapsody fe JA x HERA h E PB A SC 
码 。 其 他 方法 使 用 域 的 具体 图 解 系统 来 描述 。MATLAB® Real Time Workshop 
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(RTW) 为 直接 来 自 Simulink@ 图 示 系 统 描述 的 大 量 目标 类 型 提供 了 生成 代码 的 
能 力 。 考 虑 到 来 自 FPGA 技术 的 Simulink® (Hwang 等 ”2001) 硬件 综合 的 可 用 
性 ， 为 了 分 级 系统 设计 将 MATLAB@ 的 工具 集 放 在 一 个 非常 重要 的 位 置 上 ， 虽 然 
集成 分 级 环境 并 不 存在 。 | 

交替 变换 方法 ， 比 如 来 自 I- Logix 和 Ptolemy Classic ( Madahar 等 2003) 
的 Rhapsody 和 Statemate 工具 (Gery & 2001, Hoffmann 2000), ， 提 供 了 来 自 各 
种 具体 域 的 高 级 系统 描述 的 代码 生成 能 力 。 当 每 种 方法 提供 具体 的 迅速 实现 能 力 
时 ,没有 一 个 是 完整 的 系统 级 分 级 FPCA 设计 的 解决 方法 。 许 多 工具 都 提供 一 种 
不 同类 型 的 方法 ， 在 那里 ， 应 用 在 一 个 MoC 中 得 到 描述 (为 了 提供 一 个 平台 独 
立 的 DSP 算法 的 描述 ) ， 这 是 在 连接 到 一 个 APFE 来 使 算法 自动 编码 的 实现 能 够 移 
植 到 目标 平台 之 前 。 这 种 方法 的 典型 就 是 GEDAE。 


7.4.4 GEDAE 


GEDAE 是 一 个 图 示 的 数据 流 算法 规范 及 骨 人 式 的 快速 多 处 理 器 实现 环境 。 
GEDAE 发 展 环境 的 结构 如 图 7-4a 所 示 。 系 统 中 的 每 个 处 理 器 通过 一 个 板 级 支持 
包 (Board Support Package, BSP) 被 赋予 特征 ， 它 是 平台 API。 流 图 编辑 器 连接 
了 一 套 在 一 个 DFG 格式 中 的 基本 体 〈 应 用 的 基础 叶子 功能 ) 并 且 对 它们 进行 编 
制 。 基 本 体 如 强加 语义 的 结构 化 的 C 函数 一 样 来 表达 触发 器 的 数据 流 本 质 。 

为 了 高 级 系统 的 最 优化 ， 许 多 图 形 转换 得 到 了 应 用 ， 正 如 将 在 第 11 章 描述 
的 。DFG 在 平台 里 是 跨越 处 理 器 来 分 区 的 ， 并 且 许 多 基 原 是 即时 插入 的 ， 比 如 
处 理 器 互相 通信 (发 送 / 接 收 ) 的 基 原 、 具 有 一 个 调度 表 中 的 数据 运动 的 拷贝 盒 
子 及 具有 数据 流 基 原 同步 的 同步 基 原 。 最 后 的 结构 定 于 生成 程序 来 在 目标 处 理 器 
上 执行 。 为 了 高 级 系统 最 优化 ， 大 量 的 图 形变 换 得 到 应 用 。 

程序 调度 的 结果 是 一 个 发 射 包 ， 包 含 了 对 实现 平台 里 的 微 处 理 器 来 说 可 执行 
文件 和 每 个 处 理 器 的 调度 信息 。 为 了 改进 过 的 在 艇 人 式 处 理 器 上 的 函数 性 能 ， 调 
度 表 能 利用 一 套 最 优化 的 向 量 库 函数 。 为 了 每 个 处 理 器 的 分 布 式 应 用 ， 调 度 表 通 
过 驱动 运行 时 内 核 的 数据 来 执行 。 在 主机 上 编制 的 命令 与 分 布 式 命令 一 起 传递 修 
改 甚至 动态 重 配 置 的 数据 ， 有 去 向 分 布 式 应 用 的 所 有 元 件 通 道 。CEDAE BSP 的 
一 部 分 在 没有 程序 命令 的 前 提 下 人 允许 符 入 式 处 理 器 间 的 通信 。 当 应 用 得 到 部 署 
后 ， 命 令 程序 会 被 移 除 ， 并 且 主 系统 读 取 发 送 包 ， 初 始 化 各 种 平台 处 理 器 ， 然 后 
应 用 运行 分 布 到 各 个 处 理 器 。 

这 个 目前 在 为 了 军事 应 用 而 迅速 成 型 的 方法 中 扮演 着 重要 角色 。 图 7-4b 所 
示 为 在 ESPADON 设计 流 中 GEDAE 的 位 置 ， 一 个 主要 的 欧洲 的 合作 结果 首先 涉 
及 BAE 系统 和 Thales。 
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图 7-4 fg ESPADON 系统 级 设计 环境 中 的 GEDAE 
a) GEDAE 发 展 环境 b) ESPADON 环境 


7.5 FPGA 的 了 P 核 生成 工具 


7.5.1 Ef IP 核发 展 途径 


基于 模块 的 工具 从 模块 框图 生成 VHDL E Verilog HDL 代码 来 支持 硬件 设计 。 
代码 被 馈 入 一 个 硬件 综合 工具 中 来 在 一 个 FPGA 或 ASIC 中 实现 DSP 的 设计 。 基 
于 模块 的 方法 仍然 要 求 设计 者 熟悉 核心 的 定时 和 控制 方面 ， 能 够 执行 FPGA 设计 
流 的 后 期 处 理 程序 除外 。 此 外 ， 对 设计 者 仅仅 可 利用 的 模块 是 标准 IP 核 库 。 系 
统 设 计 者 必须 同样 熟悉 底层 硬件 ， 这 都 是 为 了 在 硬件 中 有 效 实施 DSP 算法 。 

大 多 数 这 些 工具 代表 了 流行 的 Simulink@ 和 MATLAB@ 上 的 信号 处 理 算法 ， 
而 且 通过 生成 VHDL 或 Verilog HDL 代码 ， 能 使 来 自 这 些 高 级 描述 中 的 FPGA 实 
现成 为 可 能 。Simulink@ 模 块 库 用 来 表示 公共 信和 号 处 理 函 数 。 在 使 用 者 使 用 这 些 
特别 的 模块 来 发 展 他 们 的 算法 之 后 ，FPCA 工具 能 转换 设计 到 FPGA 的 实现 。 这 
些 工 具 包括 了 Xilinx’ s System Generator 和 Altera’ s DSP Bulider。 

AGRA (Xilinx Inc. 2000) 使 用 来 自 MathWork Inc. 的 流行 的 MATLAB@ 
Simulink@ 工 具 及 通过 Xilinx Inc. 发 展 的 核心 来 给 予 一 个 强大 的 高 级 建 模 环境 ， 
它 能 被 用 于 DSP 系统 设计 。 这 个 算法 通过 使 用 Simulink@ 得 到 描述 ， 最 初 通过 使 
用 双 倍 精度 算法 来 实现 ， 然 后 向 下 微调 到 固定 的 点 处 ， 并 且 转 换 成 硬件 实现 。 系 
统 发 生 器 包括 一 个 叫 作 Xilinx Blockset 的 Simulink@ 库 和 软件 来 将 一 个 Simulink@ 
模型 转换 成 这 个 模型 的 硬件 实现 。 此 外 ， 系 统 发 生 器 自动 地 为 FPGA 综合 产生 命 
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令 文件 、HDL 仿真 及 实现 工具 ， 因 此 允许 使 用 者 完全 在 一 个 图 解 的 环境 中 工作 。 
Xilinx Blockset 能 自由 地 与 其 他 Simulink@ 模 块 结合 ， 但 是 仅仅 Xilinx 模块 和 子 系 
统 可 以 被 转换 成 硬件 。 系 统 发 生 器 通过 映射 Xilinx Blockset 的 子 系统 到 IP 库 模型 
来 实现 ， 并 且 将 Simulink@ 层 级 转换 到 一 个 分 级 VHDL 网 络 表 中 。 

当 人 允许 快速 算法 级 别 说 明 时 ， 比 如 能 对 最 后 的 系统 性 能 有 主要 影响 的 核心 数 
据 通 道 的 潜在 因素 、 流 水 线 级 别 和 数值 截断 的 实现 问题 没有 得 到 考虑 。 目 前 ， 当 
使 用 核心 时 ， 就 需要 使 用 者 来 结合 这 些 问 题 相应 地 修改 模型 ， 这 是 值得 考虑 的 。 
此 外 ，Xilinx IP 核 的 标准 库 对 使 用 者 来 说 仅仅 是 可 利用 的 模块 。 其 他 “黑匣子 ” 
核心 能 通过 逻辑 设计 师 使 用 标准 HDL 技术 来 得 到 发 展 , 但 是 目前 这 些 不 能 在 同 
样 的 环境 中 被 建 模 。 当 为 了 将 DSP 工具 与 Xilinx System Generator 结合 时 ， 新 的 
AccelDSP 8. 1 综合 工具 提供 了 DSP 算法 ， 具 有 高 性 能 DSP 系统 ， 该 设计 流程 使 
用 MATLAB@ 和 仿真 器 设计 工具 实现 强大 的 系统 设计 能 力 。 


7.5.2 Synplify DSP 
参数 化 仿真 模型 


Synplify® DSP 是 一 个 IP 核 架构 
的 综合 工具 ， 它 产生 来 自 低 级 的 了 P 
Ei, 经 MATLAB Simulink®@ 算 法 与 仿 
真 环境 相 连 的 RTL 级 核心 架构 。 设 
计 者 发 展 他 们 在 Simulink@ 中 的 算法 
模型 并 且 逐 渐 地 经 大 量 步骤 将 它 改 
善 到 一 个 专用 硬件 FPCA 架构 中 ， 
如 图 7-5 所 示 。 正 如 所 显示 的 ， 起 
点 是 理想 的 算法 模型 ， 合 并 了 数字 
表示 系统 的 任何 方式 (比如 浮 点 、 
双 精 度 等 )。 这 会 被 改善 为 一 个 在 
Synplify DSP 设计 环境 中 的 定点 等 值 
物 。 每 个 在 Simulink@ 图 标 上 的 触发 
器 都 被 映射 到 一 个 提供 工具 的 Simu- 
link@ 模 块 集 的 触发 器 上 ， 这 代表 那 
个 触发 器 核心 的 运转 情况 。 

为 了 对 理想 算法 的 运行 情况 与 
等 值 核心 的 物理 运转 情况 之 间 的 差 
异 负责 ， 许 多 自动 架构 的 最 优化 在 
图 7-5 中 的 DSP 综合 阶段 是 可 行 的 ， 图 7-5 Synplify® DSP 核心 综合 
包括 了 流水 线 法 、 重 新 定时 及 架构 







pes xd 
的 RTL 优 化 


136 信号 处 理 系统 的 FPCA 实现 


的 自动 的 向 量化 。 最 后 落 定 的 架构 被 转换 为 经 传统 RIL 级 综合 在 设备 上 实现 的 
RTL 等 值 物 。 

进一步 的 特征 ， 包 括 了 对 状态 机 运行 情况 进行 微调 的 设计 和 经 来 自 MATLAB 
M 代码 的 子 集 规范 的 综合 架构 ， 人 允许 对 架构 和 运行 情况 的 细 粒 度 最 优化 。 


7.5.3 基于 C 语言 的 迅速 IP 核 设计 


C 语言 通常 都 因为 大 量 开源 代码 的 存在 而 被 用 于 描述 DSP 算法 ， 特 别 是 基 
于 标准 的 应 用 。 此 外 ， 由 于 通过 C 语言 提供 更 高 级 别 的 抽象 ， 因 此 当 与 一 个 传 
统 的 Verilog 或 VHDL RTL 设计 方法 比较 时 ，C 语言 的 设计 获得 了 重要 的 生产 率 。 
Mentor Graphics Catapult C 和 Celoxica’ s Handel-C 是 两 种 主导 的 工具 ， 通 过 使 用 
C 语言 ， 它 们 使 得 设计 者 能 够 实现 目标 FPCA 产品 。 基 于 C 语言 的 FPCA 设计 工 
具 在 所 有 开发 的 FPGA 架构 中 也 有 它们 的 限制 。FPGA 构造 了 比如 LUT、 移 位 寄 
存 器 的 逻辑 和 流水 线 ， 它 们 都 需要 为 实现 高 性 能 设计 而 深入 掌握 。 

SPARK 是 一 个 为 了 应 用 并 行 编译 转换 (Gupta 等 2003) 的 高 级 综合 架构 。 
SPARK 的 影响 是 高 质量 的 综合 结果 ， 是 因为 有 着 复杂 控制 流 的 设计 而 产生 。 在 
ANSI - C 中 采取 一 种 无 限制 的 输入 行为 说 明 ， 通 过 解析 它 来 给 予 一 个 层次 中 间 
的 表示 ， 并 且 产 生 可 综合 的 RTL 级 的 VHDL。 在 调度 时 ， 一 系列 转换 得 到 使 用 ， 
其 中 包括 数据 依赖 性 的 提取 途径 、 平 行 代 码 移 动 技术 、 循 环流 水 线 的 基础 运转 及 
一 些 支 持 编译 器 的 途径 (Gupt 等 ”2003 ) 。 在 调度 后 ，SPARK 系统 执行 资源 分 
配 、 控 制 综 合并 对 生成 的 FSM 控制 器 最 优化 。 

Handel-C 是 在 硬件 中 (FPCA 或 ASIC) 实现 算法 的 一 个 高 级 编程 语言 ， 并 
且 伴随 的 设计 工具 允许 架构 设计 空间 的 开发 和 硬件 /软件 协同 设计 (Oxford Hard- 
ware Compilation Group 1997, Page 1996, Celoxica Ltd 2002), C 语言 的 一 个 小 子 
集 在 此 得 到 扩展 ， 移 除了 面向 处 理 器 的 特点 ， 比 如 指针 和 浮 点 算法 。 它 为 了 配置 
硬件 设备 及 支持 有 效率 的 硬件 生成 扩展 了 一 些 构造 。 这 些 硬件 设计 扩展 包括 了 有 灵 
活 的 数据 宽度 、 平 行 度 及 并 行 元 件 间 的 通信 。 

Handel-C 能 够 通过 使 用 所 有 的 公共 表达 式 说 明 复杂 的 算法 ， 并 且 将 它们 与 
一 些 硬件 的 最 优化 特点 一 起 转换 到 在 网 络 列表 级 的 硬件 中 。 不 幸 的 是 ，Handel-C 
仅仅 允许 数字 化 设计 ， 而 却 不 提供 同步 电路 及 高 度 专业 化 硬件 特点 的 设计 。 早 先 
说 明 的 低级 问题 都 被 完全 隐藏 了 起 来 ， 因 为 它 的 焦点 在 快速 原型 设计 和 算法 级 的 
最 优化 上 ， 而 不 是 在 所 有 潜在 可 能 的 设计 特点 的 研究 上 。 编 译 器 实行 所 有 门 级 的 
决定 和 最 优化 以 至 于 程序 设计 员 能 集中 精力 在 设计 任务 上 。 


7.5.4 基于 MATLAB®@ 的 快速 IP 核 设 计 
虽然 C/C ++ 已 经 成 为 一 种 综合 语言 的 流行 选择 ， 但 使 用 者 也 许 会 因为 以 下 
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的 因素 (Haldar 2001) 在 一 些 方法 里 使 用 MATLAB@。 第 一 ，MATLAB@ 提 供 了 
更 高 级 别 的 抽象 且 比 C 语言 的 开发 时 间 更 少 。 第 二 ，MATLAB@ 有 一 个 被 良好 定 
义 的 信号 /图 像 处 理 函 数 模 块 集 ， 它 有 着 一 组 丰富 的 与 矩阵 运算 相关 的 库 函 数 。 
在 MATLAB@ 中 ， 最 优化 更 加 简单 并 且 由 于 指针 和 其 他 复杂 数据 结构 的 缺少 编译 
器 也 更 不 易于 出 错 。 最 后 ,来 自 MATLAB 提出 的 并 行 比 C 语言 更 加 简单 ， 因 为 
来 自 C 语言 循环 并 行 的 自动 提取 要 受到 复杂 的 数据 相关 性 分 析 ， 然 而 ， 在 
MATLAB@ 中 ，DSP 算法 被 表达 为 非常 服从 并 行 化 的 矩阵 运算 。 

AccelFPGA (AccelFPGA 2002) 提供 了 DSP 算法 制造 和 FPGA 硬件 设计 之 间 
缺少 的 一 环 。 它 产生 来 自 MATLAB@ 和 Simulink@ 在 目标 FPGA 的 内 部 执行 资源 、 
路 由 架构 和 物理 设计 方面 最 优化 且 综合 的 RTL 模型 。 这 个 由 设计 师 设 计 的 产能 
工具 是 基于 MATCH 的 (分 级 计算 系统 (Haldar 2001) 的 MATLAB@ 编 译 器 ) o 
它 帮 助 设 计 者 来 为 可 配置 计算 系统 (Banerjee 5$ 1999) 开发 有 效率 的 代码 。 在 
MATCH 项 目 中 (Haldar 2001), ， 编 译 器 生成 硬件 和 手动 设计 硬件 之 间 在 性 能 上 
的 比较 ， 显 示 了 手动 设计 的 硬件 在 性 能 上 有 很 高 的 优化 。 因 此 ， 随 着 AccelFPCA 
为 了 提高 设计 和 人口 的 抽象 级 别 ， 更 高 级 别 的 抽象 不 能 为 了 效率 的 实现 而 处 理 底层 
要 求 的 复杂 性 ， 并 且 因 此 这 也 是 设计 时 间 和 质量 之 间 的 权衡 。 


7.5.5 其 他 快速 IP 核 设计 


Stnopsys Behavioral Compiler™ (Synopsys Inc. 2000) 是 一 种 行为 的 综合 工具 ， 
它 允 许 设计 者 评估 供 选择 的 架构 ， 迅 速生 成 一 个 最 佳 的 门 级 实现 ， 并 且 制 造 一 个 
由 数据 通路 、 存 储 IO 和 控制 FSM 组 成 的 设计 。Behavioral Compiler 包括 了 链接 、 
多 重 循环 操作 、 流 水 线 操作 、 环 路 流水 线 、 动 作 的 重 定 时 等 。 链 接 调度 多 重 的 内 
部 迭代 的 相关 运算 到 一 个 简单 循环 中 去 ， 在 那里 个 体 运算 符 的 总 延 时 比 给 出 的 时 
钟 周 期 更 少 。 多 重 循环 运算 花费 多 于 一 个 简单 循环 ， 并 且 自 动 调度 是 超过 要 求 的 
周期 数 的 。 因 此 Behavioral Compiler 能 从 一 个 单一 规格 创造 出 多 重 架构 ， 并 且 通 
过 使 用 高 级 约束 条 件 权衡 生产 量 和 延 时 。 

在 C 语言 和 Mathematica 中 的 MMAlpha 是 一 个 操纵 和 转变 ALPHA 编程 语言 
的 编程 环境 (Derrien 和 Risset 2000) 。 它 提供 一 个 从 算法 的 高 级 功能 性 说 明 到 一 
个 可 综合 的 VHDL 编程 的 通道 。MMAlpha 把 ASIC 和 FPGA 作为 目标 ， 并 且 是 一 
个 功能 性 的 数据 并 行 语言 ， 它 允许 递归 方程 和 脉动 阵列 的 硬件 架构 的 表达 式 
(Dupont de Dinechin 等 1999), ALPHA 程序 先进 的 操作 包括 流水 线 技术 、 基 础 
的 改变 、 标 准 化 和 排 程 。 流 水 线 技术 是 一 个 广泛 使 用 在 脉动 综合 中 的 转换 。 它 通 
过 改变 ALPHA 中 的 基础 来 实现 。ALPHA 也 为 重新 定时 同步 架构 提供 了 语法 。 为 
了 产生 一 个 ALPHA 规格 的 硬件 ，ALPHA 的 子 集 ALPHARD 得 到 了 使 用 。AL- 
PHARD 使 一 个 有 规律 架构 的 结构 定义 成 为 了 可 能 ， 比 如 给 出 的 脉动 阵列 和 在 
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RTL 级 生成 的 VHDL 代码 。 但 是 ， 由 ALPHARD 程序 表示 的 ， 仅 仅 只 有 1D 并 不 
是 2D 脉动 阵列 能 被 转换 成 VHDL 代码 。 

JHDL (Bellows 和 Hutching 1998) 是 一 套 基 于 Java HDL 的 FPGA CAD 工具 ， 
这 最 初 是 为 了 可 重 构 系统 ，JHDL 在 Brigham Young 大 学 得 到 了 发 展 。JHDL 的 主 
要 目标 是 为 了 开发 一 个 说 明 电路 的 工具 ， 它 能 随 着 时 间 动 态 地 被 改变 。 它 允许 使 
用 者 开发 高 性 能 的 可 重 构 计算 的 应 用 。JHDL 是 基于 Java 的 ， 并且 是 一 个 结构 的 
设计 环境 ,结果 就 是 形成 了 与 那些 使 用 传统 行为 得 到 发 展 的 综合 工具 相 比 ， 更 小 
更 快 的 电路 。 它 支持 设备 独立 性 的 某 一 等 级 ， 并 且 使 用 TechMapper 来 针对 特别 
的 FPCA 平台 。JHDL 假设 了 一 个 全 局 同步 的 设计 ， 而 且 不 支持 多 重 时 钟 同 步 和 
异步 环 路 。 此 外 ，JHDL 不 支持 行为 的 综合 。 与 Handel - C 相 比 ， 它 是 一 个 更 低 
的 级 别 并 且 提 供 更 多 在 硬件 中 对 实际 实现 的 控制 ,但 是 又 是 一 个 更 加 困难 的 设计 
环境 。 


7.6 FPGA 的 系统 级 设计 工具 


7.6.1 Compaan 


这 项 研究 成 果 包 括 三 个 主要 工具 ， 即 Compaan, LAURA fi ESPAM, Com- 
paan /LAURA (Stefanov 等 2004) 是 一 个 系统 级 的 设计 及 最 优化 方法 ， 它 遵从 了 
PBD 的 设计 准则 。Compaan 是 为 了 从 由 传统 的 连续 语言 编写 的 垦 套 循环 的 表示 中 
产生 DSP 应 用 的 基于 流 的 功能 (Steam Based Function, SBF) 模型 (图 7-6b 所 
示 为 有 着 结构 节点 的 各 种 进程 网 络 ( Kienhuis 和 Deprettere 2001) ) 的 一 个 自动 
的 工具 集 ， 比 如 MATLAB@ 或 C++ ， 如 图 7-6a 所 示 。SBF 算法 的 表示 能 如 在 FPGA 
上 的 专用 硬件 网 络 一 样 经 一 个 范例 得 到 实现 ， 它 生产 设计 前 IP 核 的 封装 器 ， 如 
在 Harriss 4 (2002) 中 描述 的 一 样 。 近 年 来 ， 这 项 成 果 已 经 扩展 到 生产 实现 最 
优化 的 LAURA 工具 ， 以 及 经 一 个 交叉 开关 组 件 为 多 重 处 理 器 通信 代码 生成 的 
ESPAM 工具 。 系 统 最 优化 主要 通过 开发 连续 的 代码 并 行 技 术 来 实行 ， 比 如 循环 
展开 或 者 循环 偏 移 ， 如 在 Stefanov 4; (2002) 中 概述 的 。 


7.6.2 ESPAM 


ESPAM 系统 综合 工具 将 由 Compaan 提议 的 设计 进程 扩展 到 了 针对 分 级 多 重 
处 理 器 平台 。 此 外 ， 设 计 进 程 是 从 一 个 在 MATLAB 或 C++ 或 者 一 个 等 值 编程 语 
言 中 规范 的 连续 应 用 开始 的 ， 这 个 应 用 自动 地 通过 KPNGen 工具 ( Verdoolgege 
等 ”2007) 被 转换 到 一 个 并 行 KPN 规范 中 ， 这 个 规范 已 经 增加 了 处 理 所 谓 弱 动 
态 程序 类 型 和 评估 KPN FIFO 缓存 区 大 小 的 能 力 。 最 后 的 KPN 映射 到 一 个 多 重 处 
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图 7-6 Compaan SBF 网 络 推导 
a) 比较 SBF 的 推导 b) SBF 节点 结构 


理 器 片上 系统 (Multiprocessor System on Chip, MPSoC) 平台 规范 中 。 平台 上 的 
每 个 处 理 器 的 源 连 同一 个 交叉 开关 、 基 于 总 线 或 点 对 点 处 理 器 间 的 通信 架构 
(Nikolov 等 2006) 一 起 生成 。 系 统 最 优化 经 转换 输入 连续 的 规范 到 一 个 KPN 进 
程 中 的 各 种 优化 转换 的 应 用 得 到 实现 。 图 7-7 所 示 为 ESPAM 设计 方法 的 综述 。 


ESPAM 


程 代码 


图 7-7 ESPAM MPSoC 设计 进程 
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7.6.3 Daedalus 


Daedalus MPSoC 设计 方法 结合 了 ESPAM 的 综合 能 力 及 Sesame 系统 级 仿真 和 
探测 环境 的 系统 级 仿真 能 力 ， 这 在 Amsterdam 大 学 已 经 得 到 了 发 展 ( Pimentel 等 
2006, Thompson 等 ”2007) 。 本 质 上 ， 这 个 结合 增加 了 并 行 算法 的 推导 和 ES- 
PAM 的 快速 综合 能 力 ， 也 有 着 自 ieee mike a me o 吉 构 的 能 力 及 映射 
到 设计 空间 的 架构 算法 。 这 允许 平台 和 映射 规格 到 ESPAM 综合 工具 中 的 自动 生 
成 ， 在 那里 ， 以 前 的 这 些 输 入 都 是 手动 生成 的 。 全 部 的 Daedalus 系统 设计 框架 
如 图 7-8 所 示 。 在 Thompson 等 (2007) 中 ， 开 发 商 已 经 证 明了 这 个 工具 的 能 力 ， 
为 了 为 一 个 MPEG 应 用 自动 地 开发 实时 性 能 的 设计 空间 ， 通 过 改变 在 一 个 MP- 
SoC 中 PowerPC 和 Microblaze 处 理 器 组 件 的 数量 在 一 个 Xilinx Virtex 2 Pro 2 FPGA 


上 得 到 了 托管 。 
(C/C++) 


t rft 


(KPNGen) 


u 
OMI) (XML) 


(ESPAM) 














RTL 综合 


Cad (1L Xilinx "fr LEE ) 








Él 7-8 Daedalus MPSoC 设计 进程 


7.6.4 Koski 
Koski 多 重 处 理 器 SoC (Multiprocessor SOC, MPSoC) 设计 环境 是 一 个 统一 基 
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于 UML 的 为 设计 空间 开发 及 MPSoC 的 自动 综合 、 编 程 和 原型 设计 的 基础 设施 ， 
其 首要 针对 的 是 无 线 传感器 网 络 的 应 用 。Koski 环境 结构 如 图 7-9 所 示 。 

Koski 有 一 个 基于 组 件 的 设计 准则 ， 与 最 后 的 架构 是 一 起 的 ， 这 个 架构 包含 
了 大 量 的 嵌入 式 处 理 右 和 到 一 个 HIBI 总 线 网 络 的 IP 核 接口 (Salminen 等 
2006) 。 正 如 所 显示 的 ， 到 Koski 的 输入 是 应 用 行为 、 架 构 和 设计 约束 条 件 的 手 
工 规范 。Koski 中 的 算法 规范 是 在 7.4.2 节 KPN 建 模 语 言 中 论述 过 的 。 由 此 ， 算 
法 和 架构 的 模型 及 KPN 触发 器 到 平台 上 的 映射 都 得 到 了 推导 。 如 图 7-9 所 示 ， 
架构 开发 包含 了 一 个 静态 和 一 个 动态 两 个 阶段 。 静 态 阶 段 决 定 了 多 重 处 理 器 资源 
的 配置 (从 单个 到 多 重 处 理 器 各 种 可 能 的 架构 ) 和 应 用 在 平台 上 的 映射 ， 以 及 
实现 的 调度 。 在 动态 阶段 ， 启 用 了 细 粒 的 开发 ， 经 由 实现 时 间 准 确 建 模 。Koski 
提供 软件 和 RTL 综合 技术 来 使 最 后 的 实现 变 成 一 个 FPGA 原型 平台 的 样板 成 为 
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设计 限制 es mim 








应 用 实现 和 证 










路 





图 7-9 Koski MPSoC 设计 环境 


本 章 已 经 概述 了 在 应 用 建 模 、 设 计 方 法 论 、IP 核 和 核心 网 络 综合 、 多 重 处 
HERFRA, DURATA FPGA 系统 的 系统 级 设计 工具 领域 中 的 尖端 技术 。 其 表 
明了 所 有 这 些 方法 的 快速 实现 能 力 都 起 源 于 在 应 用 的 最 典型 的 MoC 中 良好 地 定 
义 了 语义 的 开发 ， 以 此 来 生产 散人 式 硬 件 和 软件 的 实现 。 
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当 考 虑 到 在 不 同 领域 中 的 快速 实现 工具 时 ， 值 得 注意 的 是 它们 有 共同 的 单个 
的 全 局 相似 点 。 第 8 章 将 考察 为 高 度 流水 线 的 IP 核 自动 地 基于 组 件 的 综合 ， 开 
发 信号 流 建 模 的 技术 。 它 启示 了 在 这 种 情况 下 ， 比 较 固 有 数据 流 建 模 语义 的 处 理 
与 在 比如 GEDAE 的 多 重 处 理 器 软件 综合 工具 中 的 处 理 。 第 11 章 将 概述 它们 有 
多 么 的 不 同 ， 并 且 不 需要 补充 的 方法 ， 虽 然 这 两 种 方法 有 同样 的 出 发 点 。 此 外 ， 
本 章 还 概述 了 为 系统 共同 的 综合 设计 共同 出 发 点 的 技术 ， 这 是 比 通过 使 用 这 些 目 
前 不 同 的 技术 来 实现 更 加 有 效 的 。 
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第 8 章 基于 FPGA 的 DSP 系统 的 架构 由 来 


8.1 引言 


回顾 以 往 的 技术 ,第 4 章 和 第 5 章 清晰 地 演示 了 不 管 是 ASIC 还 是 FPGA dx 
术 平 台 ， 在 硅 硬 件 上 实现 DSP 算法 时 研发 一 个 电路 架构 的 必要 性 。 这 种 电路 架 
构 能 够 满足 应 用 的 性 能 要 求 。 正 如 之 前 强调 的 ， 在 FIR 滤波 器 表达 式 中 实现 高 级 
的 可 行 的 并 行 性 是 可 能 的 (第 2 章 中 的 式 (2-11) ) ， 这 是 为 了 实现 性 能 的 提高 ， 
或 者 使 得 SFC 或 数据 流 图 (Dataflow Graph, DFG) 流水 线 化 。 第 一 种 实现 是 假 
定 硬 件 资源 在 硅 面积 方面 是 不 受 限 制 的 ， 而 第 二 种 方法 是 假设 由 流水 线 导致 的 
(在 一 个 更 小 的 时 钟 周期 上 是 公认 的 ) 时 钟 周期 方面 增加 的 延 时 是 能 接受 的 。 很 
明显 ， 在 硬件 层 的 最 优化 对 最 终 的 设计 有 直接 的 影响 。 这 两 方面 都 能 在 电路 架构 
中 得 到 满足 。 

正如 第 5 章 所 描述 的 ， 这 个 取舍 使 得 在 比如 微 处 理 器 、DSP 处 理 器 ， 甚 至 可 
重 构 处 理 器 这 样 的 “固定 架构 ”的 平台 上 开发 更 加 容易 ， 因 为 足够 合适 的 工具 
能 够 或 已 经 得 到 研发 ， 从 而 将 算法 要 求 有 效 地 映射 到 可 用 硬件 上 。 正 如 之 前 所 探 
讨 的 ， 使 用 FPCA 的 主要 吸引 力 是 能 够 改进 高 级 的 可 用 硬件 来 满足 算法 的 具体 需 
求 。 但 是 ， 这 实际 上 阻止 了 高 效 的 编译 工具 的 使 用 ， 架 构 的 “ 门 柱 ”已 经 移动 
了 ， 因 为 架构 是 按 需 设计 出 来 的 。 这 个 事实 在 第 8 章 将 得 到 突出 ， 并 且 第 S 章 也 
包括 了 一 些 商 业 上 或 大 学 和 研究 所 研发 的 高 级 工具 。 因 此 ， 对 一 系列 架构 的 设计 
方案 和 在 高 级 抽象 下 计算 出 的 成 本 因素 一 同 研究 是 很 典型 的 一 种 做 法 。 

本 章 我 们 将 研究 简单 DSP 系统 的 直接 映射 ， 或 者 更 确切 来 说 是 比如 FIR 滤 
波 器 或 IIR 滤波 器 、 自 适应 滤波 器 等 的 DSP 组 件 ， 因 为 这 些 组 件 现在 会 成 为 更 加 
复杂 的 系统 的 一 部 分 ， 比 如 波束 形成 器 、 回 波 消除 器 等 。 关 键 点 是 探究 应 用 于 
SFG 表示 式 上 的 变化 如 何 能 影响 这 种 功能 的 FPGA 实现 ， 这 使 得 读者 能 在 SFG 中 
快速 操作 ， 而 不 是 在 电路 架构 中 操作 。 这 个 趋势 经 由 本 书 变 得 更 加 流行 ， 因 为 我 
们 试图 转移 到 一 个 更 加 高 级 的 表示 式 上 。 后 面 的 章节 将 通过 思考 系统 层面 的 影 
响 ， 演 示 如 何 使 用 更 加 高 级 别 的 抽象 实现 额外 的 性 能 提高 。 

8.2 节 将 着 眼 于 DSP 特征 并 给 予 一 些 如 何 将 这 些 映射 到 FPGA 实现 上 的 指 
导 。 然 后 我 们 讲述 SFG 的 改变 是 如 何 集 中 到 Xilinx Virtex FPGA 系列 的 FPGA 技 
术 中 的 。 考 虑 到 FPGA 架构 的 一 个 关键 方面 是 分 布 式 存储 器 ， 强 调 了 有 效率 的 流 
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水 线 技术 是 一 个 关键 的 最 优化 。 这 样 以 详细 且 正 式 的 方法 进行 研究 ， 以 此 来 实现 
要 求 的 流水 线 等 级 。 本 章 主要 依靠 由 Keshab K. Parhi (Parhi 1999) 写作 的 一 篇 
优秀 文章 ， 这 篇 文章 包括 了 VLSI 硬件 中 复杂 DSP 系统 的 实现 。 然 后 本 章 继续 圳 
括 大 量 电路 层 的 最 优化 ， 试 图 使 用 最 小 的 面积 达到 必要 的 速率 。 这 涉及 对 原始 的 
SFG 进行 变换 来 达到 必要 速度 ， 这 包括 了 通过 硬件 的 复制 来 提高 计算 量 、 一 个 叫 
作 去 折 释 的 过 程 或 在 速度 允许 下 共享 可 用 的 硬件 。 在 本 章 中 ， 这 些 技术 被 用 于 简 
单 的 例子 中 ， 通 常 是 FIR 滤波 器 和 IR 滤波 器 。 


8.2 DSP 算法 特点 


通过 它们 特有 的 本 质 ，DSP 算法 趋向 于 运用 在 需要 处 理 大 量 信息 的 应 用 中 。 
正如 第 2 章 所 强调 的 ， 抽 样 速率 的 范围 能 从 语音 环境 中 的 kHz 达到 在 图 像 处 理应 
用 中 的 MHz。 清 楚 地 定义 有 关 DSP 系统 的 参数 是 很 重要 的 。 

(1) 抽样 速率 能 被 定义 为 一 种 速率 ， 在 这 种 速率 下 ， 我 们 需要 处 理 研究 中 
的 系统 或 算法 的 DSP 信号 样 值 。 比 如 ， 在 语音 应 用 中 ,语音 的 最 大 带宽 通常 被 
判定 为 4kHz， 导 致 抽样 速率 为 8kHz。 

(2) 吞吐 率 定义 为 一 种 速率 ， 在 这 个 速率 下 ,数据 样 值得 到 处 理 。 在 一 些 
场合 ，DSP 系统 的 目的 是 为 了 匹配 吞吐 量 和 采样 速率 ,但 是 在 更 低 的 采样 速率 系 
统 中 (语音 和 声 频 ) ， 这 会 导致 处 理 器 硬件 的 利用 率 不 足 。 比 如 语音 采样 速率 是 
8kHz， 但 是 大 量 DSP 处 理 器 的 速率 都 达到 几 百 MHz。 在 这 些 情 况 下 ， 每 秒 就 需 
要 执行 大 量 计算 ， 那 意味 着 吞吐 量 忆 要 比 采 样 速率 高 好 几 个 数量 级 。 在 吞吐 量 很 
高 且 计 算 的 需要 很 适中 的 情况 下 ， 就 存在 重复 使 用 硬件 的 可 能 性 ， 也 就 是 次 。 

(3) 时 钟 速率 定义 为 系统 的 运行 速率 。 我 们 认为 在 一 些 应 用 中 这 个 数值 可 
能 是 错误 的 ， 因 为 内 存 大 小 、 结 构 和 用 法 在 性 能 的 决定 中 可 能 更 加 关键 。 在 DSP 
系统 中 ,简单 地 细 读 一 下 DSP 和 FPGA 数据 表 就 可 以 看 出 最 新 Xilinx Virtex 
5 FPGA 系 列 的 时 钟 速率 是 550MHz， 然 而 TI’ s C64xx DSP 系列 能 达到 1GHz。 看 
上 去 DSP 处 理 器 比 FPGA 更 快 ， 但 那 是 在 单个 循环 中 执行 计算 的 数量 。 它 是 决定 
吞吐 量 的 一 个 主要 因素 ， 它 能 对 性 能 更 加 准确 地 评估 ， 但是， 还 是 得 取决 于 实际 
应 用 。 

因此 很 明显 ， 我 们 基本 上 需要 根据 吞吐 量 及 采样 速率 设计 系统 。 这 在 很 大 程 
度 上 依赖 于 我 们 怎么 才能 有 效率 地 开发 电路 架构 。 正 如 第 4 章 和 第 5 章 中 所 讲述 
的 ， 这 还 是 得 依靠 通过 有 效 管理 底层 的 硬件 资源 来 满足 性 能 要 求 。 对 ASIC 应 
用 ， 这 是 一 个 完全 公开 的 硬件 平台 ， 但 是 对 FPFGA， 在 处 理 元 件 方面 ， 例 如 专用 
的 DSP 模块 、 可 扩展 的 加 法 器 结构 、LUT 资源 、 存 储 器 资源 (分 布 式 RAM、 
LUT RAM 、 寄 存 器 ) 和 互 连 性 ， 比 如 高 速 Rocket IO 、 可 编程 互 连 的 各 种 形式 等 
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还 是 受 限 的 。 其 目的 是 为 了 将 这 些 资源 匹配 到 计算 的 需要 中 ， 这 些 最 初 是 基于 性 
能 来 做 的 ， 并 且 如 果 吞 吐 量 溢出 的 话 ， 则 权衡 一 下 面积 上 的 取舍 。 

这 的 确 是 现在 主要 的 挑战 。 在 DSP 处 理 器 中 ， 架 构 不 变 的 本 质 就 是 逐步 提 
高 有 效率 的 DSP 编译 器 性 能 来 使 得 如 C 语言 的 高 级 语言 能 够 被 编译 、 装 配 并 实 
现 到 处 理 器 上 。 因 此 DSP 编译 器 的 目的 是 为 了 研究 处 理 模块 速率 是 否 允 许 以 要 
求 的 采样 速率 来 计算 算法 的 一 次 迭代 。 这 通过 检查 处 理 器 固定 的 资源 及 调整 计算 
来 实现 ， 并 以 这 种 方式 达到 要 求 的 采样 速率 。 实 际 上 ， 这 涉及 可 用 硬件 的 重复 利 
用 ， 但 是 我 们 打算 不 在 这 些 方面 考虑 处 理 器 。 从 FPGA 的 实现 中 ， 使 用 一 个 即时 
设计 的 原因 是 为 了 考虑 硬件 能 够 重复 使 用 多 少 次 ， 并 且 是 否 能 达到 这 个 采样 速 
率 ? 其 重点 是 制造 硬件 资源 来 匹配 性 能 要 求 ， 这 也 是 本 章 的 一 个 关键 点 。 


8.2.1 算法 特点 的 进一步 描述 


采样 的 一 些 基 本 定义 、 吞 吐 量 和 时 钟 速率 现在 已 经 因为 DSP 系统 得 到 了 开 
Ro BÆ, 虽然 我 们 开始 开发 不 同 技术 来 改变 和 提高 电路 架构 的 描述 方式 ,但 是 
开发 其 他 定时 方面 也 很 重要 。 比 如 ， 使 用 并 发 性 ， 以 并 行 和 流水 线 的 形式 对 性 能 
和 最 终 FPCA 实现 的 定时 产生 额外 影响 。 

时 延 是 对 应 于 输入 x(n) 的 输出 y Cn) 的 时 间 。 乍 一 看 ， 这 似乎 相当 于 吞吐 
量 , 但 是 如 图 8-1 所 示 的 y (n) =ax (n) 的 计算 清楚 地 演示 了 事实 并 非 如 此 ， 
特别 是 当 流 水 线 得 以 应 用 时 。 在 图 8-1 中 ， 电 路 会 有 三 重 流水 线 并 且 因此 在 三 个 
时 钟 周 期 后 将 产生 第 一 个 输出 ， 因 此 称 作 时 延 ; 之 后 ， 每 个 周期 都 将 产生 一 次 输 
出 ， 这 就 是 吞吐 量 。 考 虑 如 图 8-2 所 示 的 简单 递归 y(n) =ay(n-1), BRK 
的 输出 y(n) 依靠 之 前 的 输出 y( -1) ， 并 且 因 此 ， 时 延 决定 了 吞吐 量 。 这 意味 
着 如 果 要 花费 三 个 时 钟 周期 来 产生 第 一 个 输出 ， 则 必须 等 待 三 个 时 钟 周期 来 产生 
每 个 输出 ， 并 且 就 此 而 言 ， 这 牵扯 到 了 每 一 个 输入 。 因 此 很 清楚 ， 当 为 不 同 的 算 
法 推导 电路 架构 时 ， 任 何 的 像 流水 线 能 同时 改变 吞吐 量 和 时 延 的 技术 必须 小 心地 
考虑 。 

有 许多 的 最 优化 能 够 在 FPGA 实现 中 得 以 实现 来 执行 要 求 的 计算 ， 正 如 以 下 
所 列 。 可 以 说 并 行 在 算法 描述 中 的 使 用 是 很 正常 的 ， 并 且 不 是 一 个 最 优化 ， 但 在 
这 里 主要 的 定义 集中 在 FPGA 实现 的 开发 上 ， 一 个 串 行 处 理 器 的 实现 未 必 会 开发 
这 一 层 的 并 行 。 

并 行 能 自然 地 存在 于 算法 的 描述 中 ， 也 能 通过 组 织 计 算得 到 引进 ， 来 使 得 并 
行 得 以 实现 。 在 图 8-3 中 ,我 们 能 够 实现 过 程 P ，P, MP, 在 所 有 3 种 情况 
中 ， 如 同 3 个 独立 的 处 理 器 PE PE, 和 PE3。 在 图 8-3a 中 ， 这 个 过 程 是 来 自 单 
个 源 的 ， 在 图 8-3b 中 ， 它 们 来 自分 离 的 源 ， 在 图 8-3c 中 ， 过 程 被 连续 地 组 织 起 
来 。 后 者 的 处 理 是 效率 低下 的 ， 因 为 在 任何 一 个 时 间 中 仅仅 只 有 一 个 处 理 器 在 运 
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图 8-1 系统 y(n) =ax(n) 的 时 延 和 吞吐 量 的 关系 





图 8-2 系统 y(n) =ay(n-1) AREA LANKA 


转 ， 但 是 为 了 表述 完整 ， 将 其 列 出 。 
C) 
(5) 
Ou 
a) 


A 8-3 使 用 三 个 处 理 器 PE PE, 和 PE, 的 算法 的 实现 
a) 单 源 b) 多 源 “) 顺序 算法 


ot 
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交叉 能 被 用 于 加 速 计算 ,通过 共享 多 个 处 理 器 来 计算 并 行 算法 的 迭代 次 数 ， 
图 8-4 所 示 为 图 8-3c 的 串 行 算法 描述 。 在 这 种 情况 下 ，3 NAE P, P, 和 P 
并 行 执行 算法 的 3 次 迭代 并 且 每 行 计算 分 别 被 映射 到 单个 的 处 理 器 PE,, PE, 和 
PEs 上 。 


X9 Om Ope E 
1 
OO m 
2 
OO 
a) 





图 8-4 流水 线 示例 
a) 交叉 演示 b) 交叉 实现 


流水 线 是 另 一 种 有 效 的 并 发 形式 ， 其 中 进程 是 在 分 开 的 数据 片上 执行 的 ， 但 
却 是 同时 执行 ， 如 图 8-5 所 示 。 在 这 种 情况 下 ，3 HERE P,, P, 和 P 都 同时 执 
行 ,但 是 算法 的 迭代 次 数 不 同 。 因 此 现在 的 吞吐 量 为 :PE, ，tPE, 或 :PE3， 而 不 
是 图 8-3c 中 的 (PE, +¢PE, + iPEs。 但 是 ,流水线 的 应 用 因为 一 些 递归 函数 被 限 
制 ， 比 如 图 8-6 所 示 的 计算 y(n) =ay(n -1)。 正 如 图 8-6a 所 示 ， 原 始 的 处 理 器 
会 得 到 一 个 时 钟 速率 为 大 及 吞吐 率 为 了 的 实现 。 如 图 8-6b 所 示 的 四 重 流 水 线 的 
应 用 造成 了 快 4 倍 计 时 的 结果 ， 但 是 由 于 下 一 个 迭代 依靠 当时 的 输出 ， 因 此 它 将 
必须 等 4 个 时 钟 周 期 。 这 就 造成 了 每 4 个 周期 一 次 的 吞吐 率 ， 表 明了 性 能 的 0 增 
长 。 确 实 ， 触 发 器 的 设置 和 维持 时 间 现 在 成 为 了 决定 关键 路 径 的 一 大 要 素 ， 而 且 
因此 性 能 也 按 实际 衰减 。 

很 显然 ， 当 这 些 最 优化 存在 时 ， 对 一 项 技术 而 言 不 会 是 一 个 简单 的 应 用 。 比 
Au, 在 最 后 的 FPGA 实现 中 使 用 并 行 处 理 及 在 每 个 处 理 器 中 使 用 流水 线 也 许 是 可 
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图 8-5 流水 线 的 例子 
能 的 。 在 图 8-6b 中 ,流水 线 不 会 产生 速 
度 的 提升 ,但 是 现在 算法 的 4 EART A 
交叉 ， 因 此 实现 了 一 个 4 倍 的 提升 。 很 明 


显 ， 对 设计 者 有 许多 可 用 的 选择 来 以 最 小 
的 面积 达到 要 求 的 吞吐 量 ， 比 如 串 行 对 并 a) 
行 、 并 行 /流水 线 和 硬件 共享 的 有 效 利用 
之 间 的 取舍 。 本 章 的 焦点 是 演示 设计 者 如 i 
何 能 在 一 个 算法 的 表达 式 中 研究 这 些 取 (m y 
&, JA SFG 或 DFG 的 描述 开始 ， 然 后 以 ^ 
提高 性 能 为 目的 执行 操作 。 ur p 
(n) zay(n -1) 的 流水 线 
8.3 DSP 算法 的 表示 aj ende (时 钟 速率 人 MEER) 


b) 流水 线 版 本 (时 钟 速率 4 人 .和香 吐 率 用 
有 许多 表示 DSP 算法 的 方法 ， 从 数 

字 描 述 到 方 框图 ， 再 到 HDL 描述 。 在 这 一 节 ， 我 们 集中 研究 SFC 和 DFC 表达 

式 ， 因 为 我 们 将 这 些 表达 式 作为 研究 一 些 以 上 简短 概述 过 的 最 优化 的 一 个 出 发 

点 。 由 于 这 个 原因 ， 提 供 更 多 的 SFG 和 DFG 表达 式 的 细节 是 很 重要 的 。 


8.3.1 SFG 的 描述 


DSP 系统 的 经 典 描述 是 通过 使 用 一 个 SFG 得 以 实现 的 。SFG 表达 式 是 节点 
和 有 向 箭头 的 一 个 集合 ， 在 这 个 集合 中 ， 一 个 有 向 箭头 (7, k) 表示 一 个 从 节点 7 
上 的 信号 到 节点 大 上 的 信号 的 线性 传输 。 这 个 箭头 通常 连接 乘法 器 、 加 法 器 或 延 
时 元 件 。 表 达 式 为 y(n) =ay(n-1) +x(n) 的 经 典 SFG 如 图 8-7a 所 示 ， 而 方 框图 
如 图 8-7b 所 示 。DFG 表达 式 如 图 8-7c 所 示 ， 并 且 它 在 这 里 被 给 出 是 因为 它 对 后 
面 章节 的 重 定 时 最 优化 的 应 用 是 一 个 更 加 有 用 的 表达 式 。 


x(n) Yn a ) a ) š 
Xn a 
ps 
y(n) D D 
a) b) c) 


图 8-7 简单 DSP 递归 y(n) =ay(n-1) +x(n) 的 不 同 表示 式 
a) SFG b) 方 框图 c) DFG 
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8.3.2 DFG 的 描述 


在 DFG 中 ， 节 点 表示 计算 或 函数 ， 有 向 箭头 表示 与 它们 有 联系 的 非 负 数 的 
数据 通道 。 数 据 流 满足 了 DSP 算法 的 数据 导向 性 能 ， 其 中 ， 当 所 有 输入 数据 为 
可 用 时 ， 节 点 会 得 到 激活 (执行 它 的 计算 ) 。 这 产生 了 优先 级 的 约束 (Parhi 
1999) 。 如 果 一 个 箭头 没有 延 时 ， 则 限制 内 部 的 迭代 ， 换 句 话 说 激活 的 顺序 是 通 
过 DFG 箭头 方向 来 指示 的 。 如 果 箭 头 有 一 个 或 更 多 的 延迟 ， 则 内 部 的 迭代 限制 
能 得 到 应 用 ， 并 且 当 其 得 以 运用 时 ， 这 个 延迟 将 被 转换 成 一 个 数字 延迟 或 寄 
存 器 。 

对 3 fü3k FIR 滤波 器 的 配置 是 一 个 很 切实 的 实现 。SFG 表示 如 图 8-8 所 示 ， 
能 被 应 用 于 SFG 表示 的 其 中 一 种 转换 是 移 项 。 这 通过 反 转 所 有 箭头 的 方向 得 以 
实施 ， 这 会 交换 输入 输出 节点 ， 同 时 保持 如 图 8-8b 所 示 箭 头 的 增益 或 箭头 的 延 
WA, BAMA UIA 8-8c 所 示 。 主 要 的 不 同 是 x(n) 输 入 的 数据 流 在 没有 造 
成 任何 对 最 终 SFG 功能 性 改变 的 前 提 下 已 经 被 反 转 。 后 面 将 会 介绍 图 8-8c 的 
SFG 对 于 应 用 流水 线 来 说 怎样 才 是 一 个 更 加 合适 的 结构 。 


x(n) z z 
O 


Q Q Q 
do o. 
E) ¥ (2) Y (3) o0) 





图 8-8 3 抽 头 FIR 滤波 器 的 SFG 表示 
a) 3 抽 头 FIR 滤波 器 的 SFG 表示 b) 移 项 的 SFC 表示 c) 重组 移 项 的 SFG 表示 


图 8-8b 所 示 的 SFG 的 数据 流 表示 如 图 8-9 所 示 。 在 图 8-9 中 ， 被 标 上 ay, 
a, 和 a, 的 乘法 器 表示 有 着 两 重 流水 线 阶 段 的 流水 线 乘法 器 。 被 标 为 4。 和 41 加 
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法 器 代表 了 有 着 一 重 流 水 线 阶 段 的 流水 线 加 法 
器 。 标签 表示 大 小 等 于 字 长 的 单个 寄存 器 
(在 DFG 表示 式 上 没有 指出 ) 。 以 这 种 方法 ， 数 
据 流 描述 对 一 个 硬件 的 实现 有 很 好 的 指引 ， 很 
明显 那 是 满足 研发 需要 的 性 能 要 求 合适 的 SFC 
表示 的 一 个 主要 议题 。 至 于 流水 线 架 构 ， 为 了 
实现 性 能 要 求 ， 这 是 应 用 合适 的 重 定时 方法 来 开发 流水 线 正 确 等 级 的 一 个 主要 的 
例子 。 下 一 节 将 完全 致力 于 重 定时 ， 因 为 将 要 出 现 递 归 架 构 ， 也 就 是 那些 涉及 反 
馈 回 路 的 结构 会 出 现 特别 的 问题 。 





图 8-9 简单 DFC 


8.4 FPGA 上 映射 DSP 系统 的 基础 


实现 FPGA 的 一 个 主要 目的 是 为 了 决定 需要 的 流水 线 的 重 数 。 标 记 为 (1), 
(2) 和 (3) 的 节点 通过 图 8-8a 的 3 抽 头 FIR 滤波 器 的 数据 时 序 见 表 8-1。 我 们 
能 如 图 8- 8a 中 添加 一 个 延迟 到 每 个 乘法 器 输出 上 ， 这 如 表 8-2 一 样 改变 了 数据 
调度 。 注 意 到 时 延 现 在 得 到 了 增加 ， 但 结果 就 是 一 个 周期 内 无 法 使 用 。 但 是 ， 添 
加 另 一 个 延迟 到 加 法 器 的 输出 上 会 造成 如 表 8-3 指出 的 故障 。 这 是 因为 一 个 进 
程 ， 通 过 这 个 进程 ， 我 们 添加 的 这 些 延 迟 必须 通过 重 定时 技术 的 应 用 以 系统 的 方 
式 实现 。 很 明显 ， 重 定时 被 正确 地 应 用 在 第 一 个 例子 中 ， 但 由 于 它 没 有 改变 电路 
的 功能 性 ， 因 此 在 第 二 个 例子 中 就 变 得 不 正确 了 。 重 定时 经 如 Kung (1988) 中 
描述 的 切割 原理 得 以 应 用 。 

表 8-1 FIR 滤波 器 时 序 








节点 2 
agx(1) + a,x(0) agx(1) + a,x(0) 
agx(2) +a,x(1) | aox(2) + a,x(1) + a5x(0) 
agx(3) +a,x(2) | aox(3) + aix(2) +a2x(1) 
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38-3 重 定时 的 故障 应 用 
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8.4.1 重 定时 


重 定时 (Leiserson 和 Saxe 1983) 是 一 个 用 于 在 电路 中 改变 延迟 的 转换 技术 ， 
它 并 没有 影响 输入 和 输出 特性 。 重 定时 已 经 为 了 时 钟 周期 的 减 小 ( Leiserson 和 
Saxe 1983) 、 功 耗 的 减 小 (Monteiro 等 ”1993) 及 逻辑 的 综合 被 应 用 于 同步 设计 
中 。 重 定时 的 基本 过 程 如 图 8-10 中 所 示 ， 正 如 从 Parhi (1999) 中 摘录 的 一 样 。 
对 于 如 图 8- 10a 所 示 的 一 个 有 着 边沿 U 和 了 了， 以 及 它们 之 间 的 延迟 w 的 电路 ， 通 
过 如 式 (8-1) 计算 w'， 一 个 重 定时 电路 就 能 被 推导 出 来 ， 如 图 8-10b Brzs, 4E 
REZAK w', HP, r(U) 和 r(V) 分 别 是 U 和 VV 的 重 定时 值 。 


agx(3) * a,x(2) | agx(2) +a,x(1) +a2x(1) 


mwr(e) = ee) *r(U) - r(V) (8-1) 
r(U) r(V) 
a) b) 


图 8-10” 重 定时 的 基本 过 程 图 
a) 3 抽 头 FIR 滤波 器 的 SFG 表示 b) 移 项 的 SFC 表示 

重 定时 被 概括 出 许多 的 特性 (Parhi 1999) : 

1) 任何 重 定时 路 径 的 权重 由 式 (8-1) 给 出 ; 

2) 重 定时 不 会 改变 一 个 周期 中 延迟 的 数量 ; 

3) 重 定时 不 会 改变 一 个 DFG 中 的 迭代 界限 〈 见 后 面 ) ， 因 为 一 个 周期 中 延 
述 的 数量 不 会 变 。 

4) 添加 常数 7 到 每 个 节点 的 重 定时 值 上 不 会 改变 重 定时 图 表 箭 头 中 延 时 的 
数量 。 

图 8-11 所 示 为 许多 应 用 重 定时 到 如 图 8-11a 所 示 的 FIR 滤波 器 DFG 上 的 例 
子 。 为 了 简单 ， 我 们 已 经 分 别 用 2、3、4、5, 6 取代 了 图 8-9 a, a, a, 
ho，Ah1。 我 们 已 经 表明 了 x(n) 数 据 资源 和 节点 2，3，4 之 间 分 开 的 连接 ， 这 的 
原因 会 简短 地 提 一 下 。 通 过 应 用 式 (8-1) 到 每 个 箭头 上 ， 可 以 得 到 了 以 下 每 个 
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a) 原始 3 抽 头 FIR 滤波 器 的 DFG b) 重 定时 FIR 滤波 器 的 DFC，r(1) = -2, r(2) = -2, 


r(3) = -2,r(4) = -2, r(5) =0, r(6) =0 c) HEMT FIR 滤波 器 的 DFC, 


r(1) = -2, r(2) = -2, 


w, (1—2) 
w, (1—3) 
w, (1—4) 
w,(2— 5) 


r(3) = -2, r(4) = -1, r(5) = -1, r(6) =0 


= w(1—2) +r(2) -r(1) 
= w(1 一 3) +r(3) -r(1) 
@(1—>4) +r(4) -r(1) 
@(2—5) +r(5) -r(2) 
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Ww.(3—5) = w(3—5) +r(5) -r(3) 
mwr(4 一 6) =w(4 一 6) «r(6) -r(4) | 
mw, (5 一 6) = mw(5 一 6) +r(6) -r(5) (8-2) 
使 用 式 (8-2) 中 的 一 个 重 定时 向 量 r(1) = -2, r(2) = -2, r(3) = -2， 
r(4) = -2, r(5) =0, r(6) =0， 得 到 以 下 值 : 
€,(1—52) =0+(-2) -(-2) =0 
€,(1—53) =1+(-2) -(-2) =1 
w,(1>4) =2+(-2) -(-2) =2 
w,(2>5) =0+(0) -(-2) =2 
wW.(3—5) =0+(0) -(-2) =2 
e€,(4—56) =0+(0) -(-2) =2 
mw, (5 一 6) =0+(0) -(0) 20 
这 给 出 了 如 图 8- 11b 所 示 的 改进 框图 ， 这 个 框图 给 出 了 一 个 电路 ， 在 这 个 电 
路 中 ， 输 出 箭头 上 的 每 个 乘法 器 都 有 两 个 流水 线 延 迟 。 在 乘法 器 输出 上 提供 了 一 
个 延迟 的 重 定时 向 量 已 经 得 到 应 用 ， 但 是 这 个 重 定时 的 原因 将 在 之 后 看 到 。 备 选 
的 重 定时 向 量 的 应 用 ， 也 就 是 r(1) = -2, r(2) = -2, r(3) = -2, r(4) = -1， 
r(5) = -1, r(6) =0 产生 了 如 图 8-11c 所 示 电 路 ， 这 个 电路 产生 了 一 个 彻底 的 
流水 线 。 能 够 从 这 个 数字 中 看 出 对 加 法 器 流水 线 的 应 用 要 求 一 个 额外 的 延迟 D, 
来 应 用 到 1 ~4 之 间 的 连接 。 从 这 两 个 例子 中 很 明显 可 以 看 出 许多 重 定时 操作 能 
被 应 用 于 FIR 滤波 器 上 。 如 果 mw,=0 重 定时 方法 是 可 行 的 ， 则 在 所 有 箭头 上 都 可 
使 用 。 
€,(152) =0+(-2) -(-2) =0 
w,(1—>3) =1+(-2) -(-2) =1 
€,(1—54) =2+(-1) -(-2) =3 
@w,(2>5) =0+(-1) -(-2) =1 
€,(3—55) =0+(-1) -(-2) =1 
€,(4—6) =0+(0) -(-1) =1 
€,(5—6) =0+(0) -(-1) =1 
从 两 个 概述 的 例子 中 很 明显 可 以 看 出 ， 重 定时 能 被 用 于 引入 内 部 迭代 的 限制 
(Parhi 1999) 到 DFG 中 ， 它 在 最 终 的 FPGA 实现 中 作为 流水 线 的 延迟 。 但 是 ， 
主要 的 议题 似乎 是 重 定时 向 量 的 决定 ， 这 个 向 量 必定 会 改变 DFG 上 需要 的 箭头 
的 延迟 ， 同 时 ，w, 宇 0 保留 可 行 的 方法 ， 也 就 是 对 所 有 箭头 都 可 行 的 。 决 定 重 定 
时 向 量 的 一 种 方法 是 将 图 示 方 法 对 重 定时 符号 化 的 DFG 应 用 同步 。 这 被 称 作 割 
集 或 切割 原理 ， 由 Kung (1988) 提出 。 
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8.4.2 BRE 


— SFG (或 DFG) 中 的 割 集 是 箭头 的 最 小 化 集 ， 它 将 SFC 分 成 了 两 部 分 。 
这 个 过 程 基于 两 个 简单 规则 。 

规则 1。 延迟 比例 。 所 有 出 现在 一 个 原始 SFG 箭头 上 的 延迟 刀 也 许可 以 按 比 
例 表 示 ， 也 就 是 D'aD, a 是 一 个 正 整 数 ， 它 也 被 称 作 SFC 的 流水 线 周期 。 相 
应 的 ， 输 入 和 输出 速率 也 必须 通过 因数 按 比例 表示 (关于 新 的 时 间 单 元 D') 。 时 
间 比 例 不 会 改变 SFG 所 有 的 定时 。 

规则 2。 延 迟 传输 (Leiserson 和 
Saxe 1983) 。 考 虑 到 SFG 的 任意 一 个 
将 图 表 分 成 两 部 分 的 割 集 ， 依 靠 被 
分 配 到 箭头 上 的 方向 ， 我 们 可 以 把 : 
割 集 的 箭头 分 为 人 站 和 出 站 ， 如 图 切割 
8-12 所 示 。 延 时 传输 规则 规定 大 量 PL 8-12 ” 割 集 定理 的 应 用 
的 延迟 寄存 器 上， 会 从 出 站 箭头 转换 
到 入 站 箭头 ， 或 者 反之 ， 且 不 会 影响 到 整个 系统 的 定时 。 

考虑 一 下 将 规则 2 应 用 到 图 8-11a 中 的 FIR 滤波 器 DFG。 在 图 8-13a 中 应 用 
第 一 次 切割 ， 其 中 DFG 图 被 切 成 两 个 明显 的 区 域 或 子 图 ， 子 图 让 包含 了 节点 1， 
2，3，4; FAR 包含 了 5 和 6。 由 于 区 间 之 间 的 所 有 箭头 是 从 子 图 相 出 来 到 子 
#2 的 ， 因 此 延迟 能 被 添加 到 每 一 个 箭头 上 面 ， 这 就 给 出 了 图 8-11b。 第 二 次 切 
割 将 DFG 分 成 了 子 图 妈 ， 包 含 了 节点 1，2，3，5， 以 及 子 图 料 ， 包 含 了 节点 4 
和 6。 在 每 个 箭头 上 添加 一 个 单个 的 延迟 ， 形 成 了 最 终 的 流水 线 设 计 ， 如 图 
8-11c 所 示 。 








a) b) 


图 8-13 应 用 于 FIR 滤波 器 
a) 第 一 次 割 集 b) 第 二 次 割 集 
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这 些 规则 提供 了 一 个 系统 的 添加 、 移 除 ， 以 及 分 配 一 个 SFG 中 延迟 的 方法 ， 
并 且 因 此 ， 在 没有 改变 功能 的 前 提 下 ， 添 加 、 移 除 和 分 配 寄存 器 贯穿 了 整个 电 
路 。 然 后 使 用 割 集 的 重 定时 过 程 来 在 合适 的 SFG 箭头 上 产生 足够 的 延迟 ， 从 而 
大 量 的 延迟 能 从 图 表 箭头 上 移 除 并 且 并 人 到 处 理 模块 中 ， 这 是 为 了 在 处 理 器 中 模 
拟 流水 线 。 如 果 延 迟 被 留 在 箭头 上 ， 则 会 形成 了 处 理 器 间 的 流水 线 。 

当然 ， 原 始 算法 表示 的 选择 会 对 最 终 的 性 能 产生 较 大 影响 。 例 如 采用 最 初 在 
图 8-8c 及 图 8- 14a 中 被 表示 为 DFG 的 SFG 的 备 选 类 型 。 应 用 制 集 使 得 乘法 器 的 
流水 线 能 如 之 前 一 样 ， 但 是 现在 在 节点 3 和 5 及 节点 4 和 6 之 间 应 用 割 集 ， 能 使 
得 延迟 得 以 改变 ， 这 就 产生 了 一 个 有 着 更 少数 量 延 迟 元 件 的 电路 架构 ， 如 图 
8-14c 所 示 。 





c) 


图 8-14 应 用 到 FIR 滤波 器 的 割 集 定 时 
a) 第 一 次 割 集 b) DFG c) DFG 


8.4.3 延迟 比例 的 应 用 


为 了 探究 延迟 比例 方面 ， 让 我 们 看 一 个 递归 结构 ， 比 如 式 (8-3) 给 出 的 二 
阶 IR 滤波 器 部 分 。 方 框图 及 相应 的 DFG 如 图 8-15a 和 图 8-15b 所 示 。 目 的 是 为 
了 在 处 理 器 层 上 应 用 流水 线 ， 因 此 在 每 个 箭头 上 要 求 一 个 延迟 D。 问 题 是 在 2 一 
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3 一 2 的 循环 上 没有 足够 的 延迟 来 应 用 重 定时 。 比 如 ， 如 果 图 形 上 的 切割 得 以 应 
用 ,那么 这 将 不 会 改变 在 3 一 2 到 2 一 3 的 延迟 。 通 过 如 式 (8-4) 和 式 (8-5) 
定义 算出 流水 线 周期 并 且 应 用 时 间 比 例 ， 能 使 得 这 个 问题 得 以 解决 。 

y(n) = agx(n) +a,x(n - 1) * aox(n -2) * bjy(n- 1) +by(n -2) 


(8-3) 
Qc = B./D, (8-4) 
a = maxialla, | (8-5) 





KI 8-15 二 阶 IIR 滤波 器 
' a) 模块 框图 b) DFG 


在 式 (8-4) H, fü B, 指 的 是 对 处 理 器 流水 线 要 求 的 延迟 ， 值 D. 指 的 是 在 
原始 DFG 中 可 用 的 延迟 。 最 优化 流水 线 周 期 通过 使 用 式 (8-5) 得 以 计算 ,然后 
被 用 作 比 例 因数 。 正 如 所 显示 的 ， 有 两 个 循环 ， 循 环 限制 所 是 最 糟糕 。 这 些 循 
环 是 根据 单元 时 间 (u. t.) 步 长 给 出 的 。 

1 一 2 一 4 一 1(3u.t. ) 
2 一 3 一 2(2u.t. ) 
循环 限制 所 (3/2 =1. 5u. t. ) 
循环 限制 所 (2Z1 =2u. t. ) 

应 用 比例 和 重 定时 的 过 程 如 图 8-16 所 示 。 应 用 2 为 比例 ， 给 出 如 图 8- 16a 
所 示 的 重 定 时 DFG。 应 用 图 中 的 切割 产生 了 如 图 8-16b 所 示 的 修改 的 DFG, He 
外 ， 其 中 有 如 图 8- 16c 所 示 的 DFG 的 另 一 个 切割 应 用 。 将 延迟 映射 到 处 理 嚣 并 
添加 数字 来 显示 流水 线 层 产 生 了 最 终 的 流水 线 IR 递归 式 ， 如 图 8-16d 所 示 。 

最 后 的 实现 通过 使 用 Xilinx Virtex 5 FPGA 得 以 综合 并 且 综 合 的 结果 可 通过 表 
8-4 中 的 图 8- 15b 和 图 8-16d 的 电路 观察 到 。 
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a) 


(1) 


eism wt 





Al 8-16 二 阶 IIR 滤波 器 的 流水 线 
a) 缩放 UR 递归 b) 递归 第 二 切割 应 用 c) 移动 到 处 理 器 的 延迟 d) 最 终 的 流水 线 IIR 递归 


表 8-4 重 定时 的 有 错误 的 应 用 


时 钟 (MHz) 数据 速率 (MHz) 





8.4.4 流水 线 周 期 的 计算 


先前 的 章节 已 经 概述 了 第 一 个 决定 流水 线 周期 的 过 程 ， 使 得 这 个 流水 线 周 期 
能 够 通过 放 缩 在 处 理 器 层 使 用 ， 在 FPGA 技术 中 ,在 这 一 层 使 用 流水 线 可 能 是 最 
好 的 〈 虽 然 ， 正 如 将 在 第 14 章 中 见 到 的 ， 添 加 更 高 层 的 流水 线 有 利于 低 功 耗 
FPGA 的 实现 ) 。 但 是 ， 流 水 线 周 期 的 计算 仅仅 实施 在 一 个 IR 滤波 器 二 阶 的 部 
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分 简单 例子 上 ， 并 且 因 此 需要 更 多 的 计算 流水 线 周期 的 方法 。 已 经 在 Parhi 
(1999) 中 已 经 提出 了 许多 的 不 同 的 技术 。 在 这 里 要 考虑 的 一 点 就 是 最 长 路 径 矩 
阵 算法 (Parhi 1999) ， 并 且 用 一 个 例子 很 好 地 阐述 了 。 

最 长 路 径 和 矩阵 算法 

构建 了 一 系列 矩阵 并 且 通 过 检测 对 角 线 元 素 发 现 了 和 迭代 界限 。 如 果 d 是 
DFG 中 延迟 的 数量 ， 则 创建 一 个 荆 ”"”, m=1, 2, =, d WER, RETR liy 
是 从 穿 过 元 -1 个 延迟 的 延迟 元 件 出 来 的 最 长 路 径 (不 包括 d; fd). WERA 
路 径 存 在 ， 则 I ,就 是 -1。 通 过 使 用 Bellman-Ford 或 Floyd-Warshall 算法 ( Parhi 
1999) 可 以 计算 出 最 长 路 径 ; 

例 1 考虑 图 8-17 中 给 出 的 例子 。 由 于 目的 是 产生 一 个 流水 线 型 的 电路 ， 
因此 从 每 个 处 理 器 中 的 (1) 表达 式 指出 的 流水 线 类 型 人 手 。 如 果 流 水 线 并 不 必 
要 ， 那 么 这 经 由 将 表达 式 改 为 (0) 得 以 实现 ,或 者 如 果 在 路 由 中 需要 额外 的 流 
水 线 延迟 来 帮助 布置 和 路 由 或 为 了 低 功 耗 的 实现 ， 那 就 需要 将 其 改变 为 比如 
(2) 或 (3) 等 的 表达 式 来 得 以 实现 。 





图 8-17 简单 DFG 举例 (Parhi 1999) 


第 一 阶段 是 计算 矩阵 L'”， 从 算 阵 L'” 入 手 。 通 过 产生 每 一 个 命名 为 jit 
算出 来 的 ， 它 由 di 到 dj 延迟 的 路 径 得 出 。 比 如 ， 从 di 回 到 d, 路 径 为 1 (di 一 
d,—2—3-+1->d, )， 得 到 延迟 为 2 (d, d,52—d,1—4d,), Bii (1,1) = 
-1。 对 于 83.1， 是 由 ds 到 di 的 路 径 ， 穿 过 节点 (4) 和 (1) ， 得 到 延迟 为 2; 
Alt, 5, 22. WFO, ÆH d, Bd, 的 路 径 ， 穿 过 节点 (2), (3) 和 (D), 
EIE D, =3。 这 给 出 了 如 下 的 矩阵 : 

-1 0 -1 
7 -1 3 
3| -1 =! 

更 高 阶 的 矩阵 不 需要 从 DFG 推导 。 它 们 能 被 递归 地 计算 如 下 : 


int! = keK(- 1 py) 


aJ 


st, K 是 整数 在 区 间 [1, d] 之 间 的 集合 ， 以 至 于 既 没有 中 = -1 也 没有 
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1 = -1。 为 了 满足 11 ， 我 们 考虑 K=1, 2,3, 但 是 1，3 包括 了 -1， 因 此 仅 
有 天 =2 是 有 效 的 。 因 此 


F, = hed( =1,0 +7) 





A LO 通过 以 下 方式 产生 : | 
-1 0 -1 -1 0 -1 7 -1 3 
| 7 -1 Jl 7 -1 dal 6 7 -1 
3 x -1 3 in -1 -1 "- -1 


A4 LOGRE LO n, EE LO) HE FaR LO 30 LO 
计算 ， 对 每 个 元 件 的 计算 和 之 前 一 样 如 下 所 示 : 


B = keK( - 1, + lij) 


AET LO 的 计算 如 下 : 
-1 0 -1 7 -1 3 6 7 -1 
| 7 -1 3 6 7 - 小 [s 6 «| 
3 -1 -1/\-1 3) e 10 -1 6 
LO LO LO 
一 旦 矩阵 LW 得 出 ， 和 迭代 界限 便 可 以 通过 使 用 式 (8-6) 决定 。 在 这 种 情况 
F, m=3 是 因为 这 里 有 3 TER, AL 表示 最 后 的 迭代 。 


T- = mel, max, ***, pf] (8-6) 


m 
对 于 这 个 例子 ， 给 出 了 如 下 式 子 ， 
党 了 人 6-6 
T. xit 1'3'3 Fa 
例 2 考虑 如 图 8-18a 所 示 的 网 格 滤波 器 DFG 结构 。 通 过 为 每 个 处 理 器 选择 
一 个 单个 的 延 时 (1) ， 又 一 次 选择 了 一 个 流水 线 的 类 型 。 
4 个 可 能 的 矩阵 值 决定 如 下 : 
D, —M4—44 > D, 
D, > A, > D, & D, > M, > 4, — M, —> A, > D, 
D, + M, >A, >A; —> D; 
D, —> M, > A, —> A, — M, —> A, > D, 


因此 给 
6 5] 
9. 
更 高 阶 的 矩阵 五 计算 如 下 : 
ji 4\ (2 4 7 S 
=> 


3 57 375 8 10 
L(1) L(1) L(2) 
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这 给 出 了 如 下 的 迭代 界限 : 
= imal 2 {tis} (8-7) 
它 解 决 了 


将 这 个 比例 因数 应 用 到 如 图 8- 18b 所 示 的 网 格 滤波 器 DFG 结构 中 ， 得 出 了 
最 后 如 图 8- 18c 所 示 的 结构 ， 它 有 流水 线 式 的 处 理 器 ， 正 如 添加 到 每 个 处 理 器 上 
的 (1) 表达 式 指 出 的 。 这 个 最 后 电路 的 得 出 是 依靠 跨 不 同 割 集 的 延迟 应 用 和 在 
处 理 器 层 重 定时 的 应 用 ， 这 样 可 以 将 延迟 从 输入 传递 到 输出 。 





图 8-18 网 格 滤波 器 (Parhi 1999) 
a) DFG b) 表明 了 切割 的 DFG c) 重 定时 DFG 
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8.5 并行 运算 


先前 的 章节 用 非常 卓越 的 方法 来 将 流水 线 应 用 到 一 个 现 有 的 DFG 表示 上 ， 
主要 是 基于 处 理 器 层 流 水 线 的 应 用 ， 因 为 这 一 层 是 FPCA 中 能 最 好 地 使 用 流水 线 
的 一 层 。 这 会 对 要 求 提 升 速 度 这 一 原则 产生 影响 ， 正 如 表 8-4 中 的 结果 所 证 明 
AY, FFE FIR 滤波 器 更 能 明显 地 提升 速度 。 另 一 个 提高 性 能 的 方法 是 提高 硬件 的 
并 行 化 ， 如 图 8- 19 所 示 。 这 是 通过 将 如 图 8-19 所 示 的 SISO 系统 转变 到 一 个 如 
图 8-19b 所 示 的 MIMO 系统 做 到 的 。 

考虑 早先 给 出 的 简单 的 FIR 滤波 器 。 接 下 来 考虑 给 出 的 4 抽 头 延 时 线性 滤 
CAF o 


y(n) = agx(n) +a,x(n -1) t a4x(n -2) + aax(n -3) (8-8) 
Xk Yk 
Xn SISO Yn MIMO 
Xk+ Yiri 
a) b) 


图 8-19 并 行 的 处 理 
a) SISO b) MIMO 


假定 每 个 时 钟 周期 两 个 采样 值 的 模块 ， 我 们 得 到 以 下 运行 一 个 周期 的 迭代 。 
y(k) = agx(k) +a,x(k — 1) +ax(k -2) + aax(k -3) 
y(k +1) = agx(k +1) + aux(k) +a x(k —1) + aax(k -2) 

在 以 上 表达 式 中 ， 对 两 个 输入 x(k) 和 x(k+1) 进 行 处 理 后 产生 相应 的 输出 y 
(k) 和 y(k+1)。 模 块 中 有 效 的 数据 处 理 称 为 模块 处 理 ， 其 中 尼 是 模块 大 小 。 两 
个 周期 的 框图 如 图 8-20a 所 示 。 注 意 到 当 数 据 以 两 倍 时 钟 频率 被 馈送 时 ， 在 这 些 
结构 中 延迟 为 上 。 当 在 滤波 器 的 不 同 部 分 同时 要 求 相 同 的 数据 时 ， 能 利用 这 一 点 
来 减少 一 些 延 迟 元 件 ， 这 就 产生 了 如 图 8-20b 所 示 电 路 。 

FIR 滤波 器 有 一 个 关键 的 路 径 Tu + (N -1) T,, HP N 是 决定 时 钟 周 期 的 滤 
波 器 抽 头 数量 。 但 是 在 改进 的 实现 中 ， 每 个 周期 会 产生 两 个 样 值 ， 因 此 吞吐 量 为 
2/(Tw+(N-1)TA)。 以 这 种 方法 ， 能 如 要 求 一 样 改变 模 块 大 小 ， 但 是 这 增加 了 
硬件 成 本 。 

Parhi (Parhi 1999) 引进 了 一 项 技术 ， 在 这 项 技术 中 ， 计 算 量 通过 如 下 重 排 
计算 得 以 减 小 。 

y(k) = agx(k) * aax(k -2) +z '(ayx(k +1) * ax(k -1)) 
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图 8-20 FIR 过 滤 模 块 
a) 两 次 迭代 b) 复合 运算 


通过 创建 如 下 的 两 抽 尖 滤波 器 ,，y(1k) =aox(k) * a;x(k -2) fll y(2k) =a,x 

(k+1) +a3ax(k 一 1)， 我 们 如 下 重 算 表 达 式 y(k) 。 
y(k) = y(1k) +z" (y(2(k +1))) 

表达 式 y(k+1) 被 重 写 为 如 下 : 

y(k +1) = (ag +a,) (x(k +1) +x(k)) + (a; +a3)(x(k -2)) 
- agx(k) -a,x(k +1) - ax(k -2) - ayx(k - 1) 

这 产生 了 一 个 如 下 的 一 个 2 抽 头 滤波 器 ， 包 含 了 一 个 系数 为 《ao + ai ) 和 
(az *a4) 的 结构 。 因 此 减 小 了 原始 4 抽 头 滤波 器 的 复杂 度 。 它 包括 两 方面 的 减 
少 ， 也 就 是 y(k) 和 y(2k+1)， 但 是 这 些 早 就 由 y(%) 的 计算 得 出 了 。 产 生 的 影响 
是 以 一 个 加 法 /减法 的 代价 减少 两 个 乘法 运算 。 这 对 一 个 FPGA 的 实现 来 说 却 不 
一 定 重 要 ， 在 实现 中 乘法 运算 的 复杂 度 可 与 标准 字 长 的 加 法 相 比 。 更 重要 的 是 ， 
顶层 和 底层 滤波 器 在 长 度 上 被 减 小 了 2(N/2) 个 抽 头 并 且 产 生 了 一 个 额外 的 
2(N/2) 抽 头 滤波 器 来 实现 每 个 表达 式 中 的 第 一 行 。 一 般 来 说 ， 滤 波 器 已 经 被 减 
半 ， 因 此 关键 路 径 为 Tw + (N/2) T, +37A， 其 中 包含 了 3 个 加 法 器 ， 其 中 一 个 滤 
波 器 计算 为 x(k) *x(k 1), 一 个 减 去 y(1k) ， 另 一 个 减 去 y(2(k+1))， 如 图 
8-21 所 示 。 

y(k+1) = (ag + a) (x(k +1) +x(k)) + (a; * a4)(x(k -2)) *x(k -2) 
y(1k) - y(2(k - 1)) 
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图 8-21 减少 的 基于 模块 的 FIR 滤波 器 


8.6 硬件 共享 


8.6.01 ATS 


先前 的 章节 表明 了 我 们 如 何 能 在 模块 中 执行 并 行 计算 ， 严格 地 说 这 称 为 不 折 
释 。 不 折 释 是 一 种 转换 技术 ， 它 能 被 应 用 到 一 个 DSP 程序 中 来 产生 一 个 新 的 程 
序 , 它 比 原始 程序 的 一 个 迭代 的 效率 更 高 。 通 过 使 用 一 个 描述 迭代 次 数 的 不 折 圣 
因数 得 以 表述 。 例 如 ， 考 虑 展开 一 阶 IR 滤波 器 这 部 分 , y(n) =x(n) + by 
(n-1)i3E R3 K, 表达 式 如 下 : 

y(k) = x(k) + by(k - 1) 
y(k +1) = x(k +1) + by(k) 
y(k +2) = x(k +2) + by(k +1) 

SFG 和 DFG 表示 如 图 8-22a 所 示 ， 在 里 面 加 法 器 被 处 理 器 4 代替 ,乘法 器 
Wk B 代替。 在 图 8-22b 中 给 出 了 不 折 友 的 类 型 ， 其 中 Ao, A, A, 表示 计算 3 个 
DREW EF. Bo, By, By 表示 计算 3 个 乘法 的 硬件 。 有 了 非 循环 的 表达 式 ， 每 
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图 8-22 不 折 释 的 一 阶 递归 
a) SFG 和 DFG b) AEDEM 


个 延迟 现在 都 等 于 3 个 时 钟 周 期 。 例 如 ， 先 前 在 处 理 器 上 需要 的 值 Bo Æ y(n - 
1) ， 它 是 通过 A, 输出 也 就 是 y(n +2) 的 3 个 延迟 产生 的 。 当 与 原始 的 SFC 相 比 
时 ， 延 迟 似乎 已 经 在 不 同 的 弧度 ， 例 如 4o - Bo, A, -B AA, - B; 之 间 被 重新 
AI. 
Parhi (Parhi 1999) 给 出 了 一 个 自动 执行 不 折 和 县 的 算法 并 且 在 此 得 以 引用 。 
这 是 基于 一 个 事实 的 ， 这 个 事实 是 在 不 折 倒 因数 为 的 不 折 又 DFG B, 节点 U 
(的 第 次 迭代 是 执行 原始 DFG 中 节点 U0 的 第 JC ++i RER. 
不 折 秋 算法 步骤 : 
1) 对 在 原始 DFG 中 的 每 个 节点 已 ， 画 出 JAA UO), U), =, UJ- 
1); 
2) 对 每 个 在 原始 DFG 中 有 着 延迟 w 的 U>V, J 边缘 U(i) V(i+w)/, 
延迟 为 (1+w%J) ， 边 缘 为 1=0，1，…，J-1， 其 中 % 是 求 余 。 
考虑 FIR 滤波 器 DFG， 作 为 如 图 8-23a 所 示 的 FIR 滤波 器 框图 的 DFG 表示 。 
在 变换 图 中 ， 新 的 箭头 计算 及 各 种 延迟 的 计算 ， 在 以 下 给 出 。 这 产生 了 如 图 
8-23b 所 示 的 不 折 和 至 DFG， 它 等 同 于 图 8-23a 中 给 出 的 折 又 电路。 
Xy > A(0 +0)%2 = A(0), 延迟 = [0/2] =0 
X, —nA(1 +0)%2 = A(1), 3638 = [1/2] =0 
X, — B(0 + 1)%2 = B(1), 延迟 = [1/2] =0 
X, > B(1 +1)%2 = B(2), 延迟 = [2/2] = 
Xy — C(0 +0)%2 = C(0), 延迟 = [2/2] = 
X, > C(1 +2)%2 = C(1), 延迟 = [3/2] 
Xy — D(0 +3)%2 = D(1), 延迟 = [3/2] = 
X, — D(1 +3)%2 = D(0), 延迟 = [4/2] = 


1 
1 
1 
1 
2 
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b) 


图 8-23 不 折合 的 FIR 滤波 器 的 模块 
a) SFG 和 DFG b) 不 折合 操作 


8.6.2 HiŠ 


先前 的 章节 概述 了 FIR 滤波 器 结构 并 行 实现 的 一 种 技术 。 但 是 在 一 些 情况 
下 ,需要 的 是 执行 硬件 共享 或 通过 一 个 因数 的 硬件 折 倒 来 减 小 硬件 的 数量 ， 并 
也 因此 减 小 采样 速率 。 考 虑 如 图 8-24a 所 示 的 FIR 滤波 器 框图 。 通 过 将 滤波 器 结 
STE 4 次 ， 就 推导 出 了 如 图 8-24b 所 示 电 路 。 在 改进 的 电路 中 ， 随 着 操作 计划 
映射 到 单个 硬件 单元 上 ， 硬 件 要 求 已 经 减少 了 4 个 ， 见 表 8-5。 
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图 8-24 折合 的 FIR 滤波 器 部 分 
a) 原始 框图 模块 b) 折 伙 电路 (采样 率 =1/4) 


表 8-5 图 8-24b 的 调度 


[hs 
ii Prud 加 法 器 输入 加 法 器 输出 系统 输出 








周期 

21] 4 |. | 
a | 00 [| — «e —  — | om 
2 no 1 58. ] - we — (|. oU 
3 d]. wx o- p. ww  — | . 
4 e ae Se eee ae ee 
5 a, a5x(1) a5x(1) + a4x(0) (y(3)") 
7 | œ | ww | Dt) | xD 
| 
9 | mm | mx) tas). | mx) fae) tas) | (v4)" 


根据 周期 数 ， 数 据 的 时 序 被 分 别 标 为 0，1，2，3, 84 个 周期 重复 一 次 
(严格 来 说 ， 应 该 是 k，k+1, 大 +2 和 大 +3)。 从 表格 中 很 明显 可 以 看 出 ， 结 果 
是 每 4 个 周期 产生 一 次 的 ， 也 就 是 在 第 4 个 、 第 8 个 周期 ， 以 此 类 推 。 部 分 结果 
在 括号 中 给 出 了 ， 因 为 它们 不 会 作为 一 个 完整 输出 产生 。 表 达 式 y(3) ”表示 第 一 
部 分 y(3) 和 y(3)" 的 产生 ，y(3) 表 示 的 第 二 部 分 以 此 类 推 。 

TBA GK (Parhi 1999) 由 式 (8-9) 给 出 ， 其 中 单个 组 件 的 所 有 和 输 
人 同时 到 达 ， 并 且 从 每 个 输入 到 输出 的 流水 线 层 是 相同 的 。 

Dgj(U*,V) = Nw(e) - P, *v-u (8-9) 
式 中 ，w(e) 是 在 U<V 里 延迟 的 数量 ; N 是 流水 线 周 期 ; P, 是 了 到 输出 引 脚 的 
流水 线 站 ; u Mo BRUM VRENA, 满足 0<u, vz<N -1。 考 虑 如 图 
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8-25a 所 示 以 时 延 w(e) 连 接 节点 U 和 VV 的 第 头 e， 其 中 节点 UV 和 VV 也 许 是 分 层 的 
模块 。 让 节点 U 和 VV 的 第 1 次 迭代 分 别 安排 在 时 间 单 元 NL+w 和 NL+v 上 , 其 
中 wu 和 ww 是 节点 U 和 TV 的 可 折 车 阶 数 ， 并 满足 0<u, v<N-1, 一 个 节点 的 可 折 
年 阶 数 是 按时 间 划 分 的 ， 依 据 这 个 划分 ,节点 被 安排 在 硬件 中 执行 (Parhi 
1999) ; H, AA, 是 函数 单元 ， 它 分 别 执行 节 点 U IV. N 是 折 生 因数 并 且 被 定 
义 为 折 革 到 单个 函数 单元 上 的 运行 次 数 。 考 虑 到 节点 U 的 第 1 次 迭代 。 如 果 输 出 
A, 引 脚 通过 P, 站 被 流水 线 化 ， 那 么 节点 0 的 结果 在 时 间 单 元 N+u+P, 上 是 可 
用 的 ,并且 节 点 U0 的 结果 可 以 通过 节点 的 第 (1+w(e) ) 次 迭代 来 使 用 。 如 果 输 
A H, 引 脚 的 数据 时 间 格 式 的 最 小 值 是 4,， 那 么 能 在 WCL+zw(e) ) +0+A, 上 执行 
节点 VV 的 输入 引 脚 。 因 此 ， 结 果 必 须 储存 在 Dy (Ue,V) =[N(l+w(e)) +vt+ 
A,] -LNL+P,+A, +u] ATE. MZM H, 到 HH, 需要 DE (UV) 延 时 ， 并 且 
在 这 个 路 径 上 的 数据 是 在 M +o +A, 上 的 输入 及 ， 如 图 8-25b 所 示 。 因 此 ， 在 式 
(8-10) FRE SAR ARM Te eK 

Dg(U *,V) = Nw(e) -P, +A, +v-u (8-10) 


(v) O Dh er 
Ni+v+Ay : 


a) b) 


AL 8-25 Møte 
a) 时 延 为 w(e) 的 [一 了 箭头 b) 相应 的 折 县 数据 通道 


这 个 表达 式 能 被 系统 地 应 用 到 如 图 8-24a 所 示 的 框图 中 来 推导 出 如 图 8-24b 
所 示 电 路 。 为 了 便于 展示 ， 使 用 了 如 图 8-26a 所 示 的 DFG。 在 图 中 ,为 了 折 双 的 
简化 ,已 经 添加 了 一 个 额外 的 加 法 器 及。 在 图 8-26a 中 ,我 们 已 经 使 用 大 量 括号 
来 表明 处 理 原件 所 需 的 阶 数 。 因 此 ， 这 个 目的 表明 了 我 们 想 要 使 用 一 个 加 法 器 来 
计算 asx(z) ，a2x(z) ，aix(z) 和 aox(z)。 因 此 ， 这 些 时 序 指明 了 设置 的 阶 数 v 
和 w 的 值 。 下 一 个 计算 如 下 得 出 ， 它 给 出 了 如 图 8-26a 所 示 的 时 延 和 时 序 要 求 。 

Drean =4(0) -0+1-1=0 
Dorp 74(0) -0 +2 -2 =0 
Dyer) =4(0) -0 +3 -3 =0 
Drcp_sey =4(0) -0 +4 -4 =0 
Drup) =4(1) -0 +2 -1 =5 
Dien sk) =4(1) -0 +3 -2 =5 
Depa) =4(1) -044-3 =5 
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a) b) 


图 8-26 HÆRE 
a) 原始 框图 b) 折 秋 电路 (采样 速率 =1/4) 


图 8-27a 所 示 为 反 转 时 间 序 列 是 如 何 产生 一 个 稍 有 不 同 的 折 倒 电路 (图 
8-27b) 的 ， 其 中 已 经 改变 了 反馈 循环 上 的 延迟 ， 也 相应 改变 了 数据 选择 器 上 的 
时 序 。 这 个 例子 演示 了 改变 计算 上 时 间 排 序 的 影响 。 在 以 下 显示 了 不 同 的 时 序 计 
算 。 以 下 的 例子 是 一 组 序数 的 操作 ， 分 别 变 为 (1), (3), (2) 和 (4)。 并 且 
要 求 加 法 器 输出 和 加 法 器 输入 之 间 要 有 两 个 不 同 的 连接 ， 并 且 延 迟 也 不 一 样 ， 分 
别 是 3 和 6。 





(0) o 
(99 Yk 
Q3) [ay (0,1) 
a) b) 


图 8-27 备 选 的 折 圣 
a) 改进 的 框图 b) 改变 了 调度 表 的 电路 
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Dg) =4(0) -0+1-1 =0 

Dyre) =4(0) -0 +3 -3 =0 

Dicc sp) =4(0) -0 +2 -2 =0 

Drip sc) =4(0) -0 +4 -4 =0 

Dying =4(1) -0 43-1 26 

Dg(gp =4(1) -0 +2 -3 =3 

Dyc) =4(1) -0 +4 -2 =6 
技术 的 应 用 在 递归 计算 中 变 得 更 加 复杂 ， 如 使 用 在 Parhi (1999) 中 给 出 的 
二 阶 UR 滤波 器 例子 所 证 明 的 。 在 这 个 例子 中 ， 作 者 演示 了 当 一 个 递归 计算 被 流 

水 线 化 时 ， 研 究 涉及 的 自然 元 余 是 如 何 有 效 地 提高 硬件 共享 的 。 


8.7 FPGA 中 的 应 用 


本 章 已 经 简洁 地 概括 了 将 算法 描述 以 DFG 的 形式 映射 到 电路 架构 中 的 一 些 
技术 。 最 初 的 资料 展示 了 我 们 如 何 能 应 用 延迟 比例 来 首先 将 足够 的 延迟 添加 到 
DFG 中 ， 这 是 为 了 使 重 定时 得 以 应 用 。 这 转换 到 了 FPGA 的 实现 上 ， 其 中 寄存 器 
的 数量 能 随 要 求 变化 。 正 如 第 5 章 所 描述 的 ， 流 水 线 的 使 用 是 产生 高 性 能 FPCA 
实现 的 一 个 有 力 技术 。 

在 提出 的 这 个 设计 例子 中 ， 选 择 了 一 个 一 重 流水 线 ， 因 为 这 代表 了 FPGA 中 
可 能 最 好 的 流水 线 重 数 。 这 能 通过 确保 箭头 上 内 部 迭代 的 界限 做 到 ， 这 个 迭代 能 
被 映射 到 节点 中 来 代表 流水 线 。 保 留 在 箭头 上 的 延迟 代表 需要 用 于 保证 DFG 正 
确 重 定时 的 寄存 器 。 | 

本 章 也 回顾 了 如 何 将 并 行 合并 到 DFG 表示 中 ， 这 再 一 次 成 为 了 一 个 应 用 FP- 
GA 的 现实 最 优化 。 实 际 上 ， 通 常 的 并 行 和 流水 线 的 混合 使 用 是 为 了 使 得 在 满足 
春 吐 量 要 求 的 面积 和 功率 方面 实现 最 优化 。 


8.8 总 结 


本 章 突出 了 许多 能 够 让 使 用 者 将 一 个 算法 的 DFG 表示 映射 到 一 个 适合 FPGA 
的 电路 架构 中 的 技术 。 这 项 技术 集中 于 将 寄存 器 引进 DFG 表示 中 ， 并 且 也 将 
DFG 表示 式 转换 到 一 个 并 行 实现 中 。 这 些 技术 特别 适用 于 为 具体 的 DSP 功能 性 
产生 IP 核 功能 。 正 如 第 11 章 将 描述 的 ， 这 些 技术 现在 变 得 成 熟 了 ， 并 且 焦 点 从 
高 级 描述 转换 为 产生 有 效率 的 系统 实现 上 ， 在 高 级 描述 中 ， 节 点 功能 也 许 已 经 以 
IP 核 的 形式 形成 了 。 因 此 ， 本 书 剩余 的 部 分 将 集中 在 这 个 更 高 级 的 问题 上 。 
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第 9 IRIS 行为 综合 工具 


第 7 章 已 经 强调 了 基于 FPGA 的 DSP 系统 的 哪些 工具 和 方法 是 可 用 的 ， 特 别 
强调 了 综合 专用 IP 核 的 工具 。 但 是 ， 第 8 章 探讨 了 在 建立 电路 架构 中 的 一 些 议 
题 ， 而 这 些 是 IP 核 的 基础 。 像 在 DFG 的 算法 表达 式 中 ， 对 并 行 性 和 流水 线 型 式 
的 算法 并 发 性 的 探究 有 助 于 FPGA 实现 的 产生 。 虽 然 使 用 了 大 量 简单 的 例子 来 叙 
述 基础 的 技术 ， 但 是 现实 是 这 些 技术 很 难 对 不 怎么 复杂 的 算法 进行 研究 。 由 于 这 
个 原因 ， 研 发 综合 工具 来 使 这 些 技术 自动 化 会 有 很 多 的 收益 。 

行为 综合 工具 可 以 接受 对 硬件 有 要 求 的 功能 行为 的 描述 ， 然 后 从 由 工具 供应 
商 或 使 用 者 提供 的 元 件 库 中 选择 合适 的 硬件 组 件 ， 产 生 组 件 间 需要 的 互 连 ， 将 工 
作 和 在 行为 描述 中 使 用 的 数据 分 配 到 用 来 计算 和 存储 的 元 件 中 ， 确 定 出 在 计算 和 
存储 的 元 件 上 执行 的 操作 顺序 ， 然 后 产生 出 实现 这 个 连续 操作 的 一 个 规范 。 通 过 
使 用 逻辑 综合 工具 ， 针 对 FPGA 的 实现 来 产生 出 最 后 的 设计 。 为 了 更 有 效率 ， 行 
为 综合 工具 必须 满足 使 用 者 对 综合 架构 的 指定 限制 以 及 /或 者 优化 目标 。 这 些 主 
要 包括 成 本 、 时 钟 周期 、 吞 吐 量 和 时 延 因 素 。 这 些 工具 也 应 该 为 综合 进程 的 结果 
提供 直观 的 展示 ， 这 种 直观 展示 使 得 使 用 者 能 快速 理解 综合 的 架构 ， 以 及 理解 分 
配 和 调度 的 结果 。 本 章 将 描述 已 经 在 Queen' s University 得 到 了 开发 的 IRIS 综合 
工具 ， 并 且 实 际 上 已 经 实现 了 在 第 8 章 中 研究 的 技术 。 这 个 工具 代表 了 大 量 行为 
综合 的 一 个 例子 ， 它 从 SFG 角度 给 出 了 实现 基于 FPGA 的 DSP 系统 的 细节 。 本 
章 是 对 Yi 和 Woods (2006) 提出 的 论文 的 扩展 。 

本 章 由 以 下 组 成 。9. 1 节 将 给 出 一 个 对 行为 综合 工具 的 简单 介绍 ， 其 目的 是 
为 了 强调 一 些 在 本 章 中 描述 的 过 程 。9.2 节 将 描述 IRIS 综合 工具 ， 它 是 基于 模块 
化 设计 过 程 的 ， 它 将 在 9.2.1 节 中 描述 。 综 合 过 程 的 一 个 关键 方面 是 重 定时 ， 这 
在 9.3 节 中 有 描述 。 第 8 章 中 的 例子 是 简单 的 DFG 描述 , 但 是 在 9.4 节 中 的 描 
述 将 展示 在 产生 SFG 功能 性 分 级 实现 中 的 挑战 。9. 5 节 将 继续 描述 硬件 共享 如 何 
在 分 级 的 描述 功能 中 得 到 实现 。 


9.1 行为 综合 工具 的 介绍 
一 些 供应 商 为 数字 系统 综合 提供 CAD 工具 ， 从 RTL 级 入 手 ， 主 要 是 使 用 综 


合 的 某 一 形式 。 存 在 许多 基于 FPGA 的 DSP 设计 的 成 熟 的 低级 设计 工具 ， 比 如 
Synplify (Synplify 2003) 和 Design Manager ( Xilinx Inc. 2001 ) 。 但 是 可 以 很 清楚 
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地 看 出 ， 还 需要 高 级 综合 工具 来 有 效率 地 实现 系统 和 架构 级 的 综合 。 在 行为 层 或 
算法 层 上 ， 规 格 和 算法 一 样 ， 在 这 个 算法 中 ， 基 础 结构 的 元 素 是 控制 器 和 网 表 。 
架构 级 综合 (Vanhoof 等 ”1993) 从 一 个 行为 的 (算法 的 ) 规范 人 手 ， 产 生 RTL 
层 结构 的 系统 描述 。 

我 们 使 用 以 下 的 度量 来 定义 一 个 好 的 综合 系统 (Roy 1993 ) 。 

(1) 综合 复杂 设计 的 能 力 。 一 个 好 的 综合 系统 应 该 能 够 处 理 有 合理 规模 和 
复杂 度 的 例子 。 

(2) 更 短 的 设计 周期 。 一 个 优秀 的 综合 系统 可 以 减 小 产品 生命 周期 并 且 大 
大 降低 芯片 成 本 。 

(3) 广泛 的 设计 空间 的 探索 。 综合 系统 有 必要 探索 广阔 的 设计 空间 来 产生 
或 接近 最 佳 的 设计 。 

(4) 现实 约束 驱动 的 综合 。 我 们 应 该 考虑 的 是 现实 的 约束 条 件 ， 而 不 是 抽 
象 的 。 

但 是 以 上 的 一 些 度量 是 相互 冲突 的 ， 并 且 在 一 个 单独 的 处 理 器 实现 中 ， 在 其 
中 一 个 度量 中 的 提高 可 能 会 导致 另 一 方面 的 下 滑 。 例 如 ， 广 泛 的 设计 空间 探索 通 
常会 减缓 设计 进程 ， 那 意味 着 设计 周期 会 增加 。 各 种 与 架构 极 综合 相关 的 任务 包 
括 安排 一 些 运 算 符 来 控制 步骤 (调度 )、 将 这 些 运算 符 分 配 到 描述 中 的 操作 上 
(分 配 ) 、 给 一 些 操 作 配 置 一 些 运 算 符 〈 捆 绑 ) ， 以 及 给 变量 分 配 和 配置 存储 器 模 
块 〈 配 置 和 捆绑 ) 。 

调度 、 资 源 分 配 和 捆绑 是 涉及 在 设计 空间 中 找到 一 个 满意 解 的 任务 。 调 度 是 
在 综合 进程 中 一 个 重要 的 子 任务 。 调 度 会 影响 综合 设计 的 几 个 方面 ， 包 括 使 用 的 
功能 性 单元 的 总 数 、 计 算 的 总 时 间 、 存 储 和 互 连 的 要 求 。 这 里 主要 的 焦点 是 最 小 
化 功能 单元 的 数量 ， 从 而 减 小 电路 规模 。 调 度 算 法 能 被 清晰 地 分 为 时 间 约 束 和 资 
源 约束 。 在 时 间 约 束 的 调度 中 ， 为 了 控制 步骤 的 数量 固定 ， 功 能 单元 的 数量 被 最 
小 化 。 在 资源 约束 的 调度 中 ， 控 制 步骤 的 数量 是 因为 设计 成 本 最 小 化 ， 也 就 是 功 
能 性 和 存储 单元 的 数量 。 先 前 的 综合 方法 包括 尽 可 能 快 (As Soon As Possible, 
ASAP) ,或 者 尽 可 能 晚 (As Late As Possible, ALAP) 的 调度 ， 这 是 解决 有 着 优 
ERAR (Dewilde 1985) 调度 问题 的 一 个 最 简单 的 方法 。ASAP 和 ALAP 调 
度 有 着 共同 的 缺点 ， 那 就 是 算法 的 任何 地 方 都 没有 涉及 资源 的 使 用 。 因 此 ,没有 
最 小 化 成 本 和 考虑 资源 约束 的 尝试 。 列 表 调 度 方法 (Davidson 1981) 通过 在 
移动 到 下 一 步 前 ， 和 瞬间 执行 大 量 操 作 一 样 ， 在 递增 序数 和 调度 中 识别 出 可 用 的 
瞬间 来 针对 资源 约束 的 问题 。 整 数 线 性 规划 (Integer Linear Programming, ILP) 
方法 (Lee 等 ”1989) 试图 使 用 分 枝 定 界 搜索 算法 来 找到 一 个 最 佳 调度 ， 它 是 相 
对 简单 的 自动 化 。 大 多 数 这 些 算法 都 是 基于 一 个 单 形 法 的 。ILP 方程 的 复杂 度 随 
着 控制 步骤 的 数量 迅速 地 提升 。 实 际 上 ，ILP 方法 仅仅 对 非常 小 规模 的 问题 是 可 
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应 用 的 。 

强制 定向 调度 的 方法 (Force Directed Scheduling, FDS, Paulin 和 Knight 
1989) 是 通过 平衡 操作 、 存 储 的 值 及 数据 传输 的 并 发 性 来 使 得 受 给 定时 间 限 制 
的 硬件 面积 最 小 化 。 壕 代 优 化 (Iterative Refinement, IR) 调度 方法 (Park 和 
Kyung 1991) 是 一 个 启发 式 的 调度 算法 ， 它 有 一 个 特点 ， 那 就 是 能 够 脱离 局 部 最 
小 值 。 每 个 箭头 描述 两 个 节点 之 间 的 一 个 优先 级 限制 ， 如 果 这 箭头 是 零 延 时 的 ， 
那么 这 是 一 个 内 部 迭代 的 优先 级 限制 ; 如 果 箭 头 有 一 个 或 更 多 的 延 时 ， 那 么 这 就 
是 一 个 相互 之 间 和 迭代 的 优先 级 限制 (Parhi 1999 ) 。 同 时 ， 内 部 的 和 交互 的 优先 
级 限制 规定 了 一 个 序数 ， 依 照 这 个 序数 ， 能 够 执行 SFG 中 的 节点 。 如 果 在 非 临 
界 递归 循环 中 的 递归 节点 拥有 循环 灵活 性 〈 如 将 在 之 后 阐述 的 一 样 ) ， 那 么 那个 
循环 的 节点 能 被 移动 到 另 一 个 没有 违反 内 部 和 交互 的 优先 级 限制 的 时 间 分 区 中 。 
对 交互 的 优先 级 限制 的 探索 产生 了 更 好 的 调度 并 且 通 过 使 用 循环 的 灵活 性 使 得 配 
置 处 理 器 的 数量 最 小 化 。 所 有 以 上 描述 的 算法 都 仅仅 涉及 内 部 迭代 的 优先 级 限 
ii|; Minnesota 架构 综合 (Minnesota Architecture Synthesis, MARS, Wang 和 Parhi 
1994) 开发 了 内 部 和 交互 迭代 的 优先 级 限制 。 


9.2 IRIS 行为 综合 工具 


在 第 7 章 讲述 了 将 DSP 系统 映射 到 FPGA 中 的 设计 工具 的 简洁 性 ， 讲 述 集 中 
到 基于 FPGA 架构 的 综合 工具 的 设计 上 。 但 是 ， 对 每 个 工具 仍然 有 一 些 限制 ， 并 
且 也 有 许多 通过 目前 的 系统 不 能 有 效 处 理 的 问题 。 其 中 一 个 例子 就 是 通过 流水 线 
对 系统 行为 和 系统 架构 的 作用 产生 的 计算 延 时 。 即 使 Handel- C, AccelChip ( Ac- 
celFPGA 2002) , JHDL (Bellows 和 Hutchings 1998) 和 MMAlpha ( Derrien 和 Ris- 
set 2000) 通过 使 用 语法 能 够 使 得 电路 流水 线 化 ， 并 且 System Generator ( Xilinx 
Inc. 2000) 能 通过 改变 Xilinx 处 理 器 模块 的 时 延 来 使 电路 流水 线 化 ， 但 最 后 的 时 
序 问 题 仍 有 待 设计 者 去 解决 。 在 高 层次 中 ， 在 自动 实现 电路 层 议题 方面 的 工作 量 
更 小 ， 比 如 数据 时 间 格 式 、 流 水 线 重 数 及 数值 截断 。 此 外 ， 许 多 工具 将 架构 的 限 
制 强加 到 设计 者 身上 ， 这 限制 了 对 大 部 分 架构 选择 的 自由 探索 。 特 别 的 ， 设 计 者 
也 许 想 利用 硬件 共享 来 研究 解决 之 法 ， 但 是 电路 和 相应 的 控制 电路 不 能 通过 目前 
的 工具 自动 产生 。 最 后 ， 这 些 工具 已 经 不 能 依据 具体 的 技术 特征 和 比如 流水 线 的 
低级 设计 技术 来 决定 算法 设计 功能 的 架构 。 

本 章 中 描述 的 这 些 ， 旨 在 为 基于 FPGA 的 DSP 设计 在 架构 的 综合 期 间 解 决 实 
现 的 问题 。 这 些 是 基于 目前 的 架构 工具 IRIS (Trainor 等 ”1997) ， 这 个 工具 在 
Queen’ s University Belfast 中 得 到 了 研发 ， 这 个 工具 原本 是 针对 VLSI Bj, TE IRIS 
架构 的 综合 工具 中 相应 的 综合 方法 在 接 下 来 的 章节 中 会 介绍 。 
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拥有 在 设计 流程 的 每 层 实现 最 优化 的 综合 工具 是 很 重要 的 。 在 20 世纪 90 年 
代 中 期 ， 有 人 认为 需要 设计 工具 通过 使 用 用 户 生成 的 处 理 装 置 来 使 得 使 用 者 能 够 
从 SFG 表示 式 中 快速 地 开发 VLSI 电路 架构 。 由 于 这 个 原因 ，IRIS 架构 的 综合 工 
具 得 到 了 开发 (Trainor 等 1997) 。 它 提供 了 一 个 通 向 低级 的 硅 设 计 工 具 的 有 效 通 
道 。 不 像 其 他 方法 ,在 IRIS 中 的 重点 是 为 了 生成 基于 那些 装置 的 最 优化 架构 ， 
通过 使 用 用 户 生成 的 处 理 装 置 使 得 算法 的 架构 得 到 开发 。 这 是 基于 使 用 由 大 公司 
提供 的 内 部 开发 的 处 理 器 核 的 前 提 下 的 ， 并 且 因此 也 使 得 基于 它们 自己 的 处 理 核 
的 解决 方法 的 得 到 了 开发 。IRIS 的 主要 优势 是 它 通过 使 用 用 户 优先 模块 为 设计 
者 提供 完全 的 自由 来 研究 各 种 各 样 的 架构 。 随 着 开发 硅 IP 核 ，IRIS 的 这 个 优势 
越 来 越 重要 ， 从 而 提高 了 这 些 使 用 者 对 优先 模块 的 需要 。 这 个 工具 也 可 以 与 传统 
VHDL 综合 工具 相 结合 ， 并 且 已 经 被 用 于 生产 实际 及 现实 的 设计 ， 因 为 它 完 全 考 
虑 了 芯片 层 工程 问题 的 影响 。 有 一 些 设计 问题 ， 比 如 不 同 处理 器 的 数据 录入 和 录 
出 的 方式 、 数 值 的 使 用 、 流 水 线 重 数 和 数值 截断 的 处 理 能 改变 整个 系统 的 特点 ， 
特别 是 时 序 和 时 延 ( McGover 1993) ， 并 且 因此 改变 系统 的 功能 。 提 出 了 一 个 叫 
作 模 块 化 设计 过 程 综合 的 方法 (Modular Design Procedure, MDP, Trainor 1995 ) 
来 为 将 技术 映射 到 架构 的 高 级 算法 和 低级 设计 工具 提供 了 一 个 桥梁 。 这 成 为 了 
IRIS 的 核心 组 件 。 


9.2.1 模块 化 设计 过 程 


MDP 提供 了 一 个 将 所 有 必要 的 实现 标准 合并 到 架构 的 推导 过 程 中 的 方法 。 
有 两 个 处 理 器 性 能 问题 是 要 考虑 的 ， 即 空 时 的 数据 格式 和 处 理 器 时 延 的 参数 化 
(Trainor 1995 ) 。 

1. 在 处 理 器 输入 和 输出 上 的 空 时 的 数据 格式 

一 个 处 理 器 的 数据 进入 或 离开 的 数据 格式 ， 或 者 “时 序 模 型 ”可 以 被 定义 
为 数值 的 位 数 或 比特 数 在 时 间 上 相对 于 其 他 数值 的 位 置 (McGovern 1993 ) 。 图 
9-1 所 示 为 典型 数据 时 序 格式 的 一 些 例子 。 

流水 线 处 理 部 件 在 细 粒 层 上 ， 也 就 是 在 处 理 器 模块 中 的 共同 过 程 ， 导 致 了 非 
平行 的 输出 格式 ， 因 此 一 个 处 理 这 些 非 标准 格式 的 工具 是 必要 的 。 这 可 能 与 现代 
FPGA 结构 无 关 ， 在 这 个 结构 中 ， 大 多 数 加 法 器 和 乘法 器 以 并 行 形式 耗 尽 输入 并 
且 产生 输出 ， 如 图 9- 1a 所 示 。 特 殊 处 理 器 的 详细 结构 ， 特 别 是 内 部 的 流水 线 寄 
存 器 的 布置 决定 了 在 每 个 处 理 器 输入 和 输出 上 的 数据 时 序 模型 。 在 处 理 器 时 序 模 


.， 型 上 维护 信息 是 有 必要 的 ， 它 可 以 决定 需要 将 哪 种 额外 的 电路 放置 在 连接 的 处 理 


器 之 间 ， 来 使 在 第 一 个 处 理 器 的 输出 上 的 数据 格式 与 在 第 二 个 处 理 器 的 输入 上 的 
预期 格式 之 间 进 行 转换 。 
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Dataword N + 1 
Dataword N 


Dataword N + 1 
Dataword N 





a) b) 


Dataword N + 1 Dataword N + 1 





Dataword N Dataword N 
c) d) 
9-1 典型 的 数据 时 间 格 式 
a) mfuJffi: (0, 0, +, 0) b) mfu3ffi, Isb 优先 ; 《MM=1 M-2, ++, 1,0) c) milf, 
lsb 优先 ; (0, 1, -«, M-2, M-1) d) mfífuf3s, 并 行 偏差 (0 1, =, K, K, «+, KEL, K+2, +) 


2. 处 理 器 时 延 的 参数 化 

把 在 处 理 器 的 每 个 数据 通道 中 的 时 延 合 并 到 在 综合 时 使 用 的 处 理 器 模块 中 。 
主要 原因 是 对 单个 处 理 器 产生 的 结果 而 言 是 很 必要 的 ， 时 钟 周 期 数 已 经 很 大 地 影 
响 了 贯穿 整个 架构 的 数据 的 时 序 。 为 了 叙述 MDP 的 运行 ， 我们 想到 了 一 个 简单 
的 Wallace 树 乘 法 器 架构 处 理 器 设计 的 例子 ， 如 图 9-2 所 示 。 

在 图 3-7 中 给 出 的 一 个 Wallace 树 乘法 器 包含 了 连接 到 一 个 快速 加 法 需 的 
CSA。 流 水 线 化 最 显著 的 方法 如 图 9-2b 所 示 。 为 了 使 用 连同 MDP 一 起 的 Wallace 
树 乘法 器 ， 必 须 决 定 适 当 的 处 理 器 性 能 值 ， 也 就 是 数据 时 序 格式 和 参数 化 的 数据 
通道 时 延 ， 并 且 合 并 到 特别 的 处 理 器 模块 中 。 和 Wallace 树 一 起 的 9 比特 操作 数 
的 部 分 乘积 和 的 MDP 例子 如 图 9-2c 所 示 。 这 个 盒子 代表 了 CSA 处 理 器 的 树 。 
在 盒子 中 沿 着 一 个 特别 的 数据 通道 参数 化 的 表达 式 代 表 那 个 数据 通道 的 时 延 ， 同 
时 数据 时 序 模型 在 输入 和 输出 的 模式 下 清楚 地 显示 了 出 来 。 时 序 模型 是 当 数据 的 
每 一 位 通过 乘法 器 时 ， 通 过 考虑 它 的 时 序 从 而 推导 出 来 的 。 注 意 到 一 个 处 理 器 模 
式 的 结构 已 经 抽象 出 了 细节 ， 仅 剩 下 时 延 和 数据 时 序 模型 的 信息 。 除 了 字 长 参数 
及 内 部 的 流水 线 站 ， 在 处 理 器 模型 中 的 一 些 时 延 值 也 都 依靠 附加 的 记 作 :的 截断 
来 反映 一 个 事实 ， 那 就 是 如 果 数 值 截断 得 到 应 用 ， 则 穿 过 那 条 数据 通道 的 时 延 会 
增加 。 数 据 通道 的 时 延 被 重 定义 为 当 输入 的 第 一 位 进入 到 阵列 时 与 当 第 一 个 可 用 
位 在 输出 出 现时 之 间 的 时 差 。 正 如 第 3 章 中 突出 介绍 的 ,在 DSP 应 用 中 截断 的 
建 模 是 很 重要 的 ， 虽然 在 处 理 器 中 用 这 种 方法 模拟 截断 也 许 很 奇怪 ,但 是 这 使 得 
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系统 层 由 截断 决定 的 影响 能 够 被 考虑 到 系统 的 综合 中 ， 因 为 截断 有 时 能 提高 输出 
的 时 延 。 例 如 ， 如 果 输 出 时 序 模型 是 一 个 偏差 的 格式 并 且 需 要 数值 截断 ， 那 么 一 
定数 量 的 lsb 会 被 丢弃 ， 并 且 在 第 一 个 可 用 位 出 现 之 前 会 需要 考虑 额外 的 时 钟 周 
期 。 在 时 延 的 表达 式 中 ， 这 些 额 外 的 周期 在 截断 项 中 得 到 反映 。 这 一 项 的 值 依靠 
输出 数据 时 序 模型 ， 并 且 依 靠 它 才能 应 用 输出 控制 截断 。IRIS 的 关键 特征 是 从 
SFG 表示 式 中 产生 电路 架构 ， 它 要 求 重 定时 过 程 的 使 用 ， 这 将 在 接 下 来 阐述 。 
XXXXXXXXX ”被 乘 数 
X. XXXXXXXXX FELL 
XXXXXXXXX PPI 


XXXXXEXXX PP2 
XXXXXXXXX PP3 

















XXXXXXXXX PP4 
XXXXXXXXX PPS 
XXXXXXXXX PP6 
XXXXXXXXX PP7 


XXXXXXXXX PP8 
+ XXXXXXXXX PP9 
XXXXXXXXXXXXXXXXXX 结果 





和 向 量 
(Sum Vector, SV) 


1 
进位 向 量 
(Carry Vector, CV) 


快速 加 法 器 


b) 


图 9-2 Wallace 树 乘法 器 架构 与 MDP 处 理 器 模型 的 比较 


9.3 IRIS BER 


IRIS 起 始点 是 综合 算法 的 一 个 SFG 表示 法 ， 在 这 个 算法 中 ，SFG 中 的 每 个 
过 程 节点 都 被 指定 了 精确 流水 线 化 处 理 器 的 一 种 模式 。 现 在 这 些 被 定义 了 的 处 理 
器 MDP 模型 能 被 修 入 到 SFG 表示 式 中 。 这 个 架构 现在 需要 重新 安排 ， 也 就 是 因 
为 处 理 器 时 延 中 改变 的 重 定时 。 这 个 重 定时 过 程 是 基于 早先 在 8. 4. 2 节 中 描述 的 
TEJRE (Kung 1988, Leiserson 和 Saxe 1983) 概括 的 重 定 时 程序 。 与 割 集 原理 
一 样 ，IRIS 中 的 重 定时 过 程 包括 两 个 步骤 ， 也 就 是 时 延 比 例 和 时 延 传输 。 时 延 
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比例 使 用 在 一 个 递归 的 架构 中 ， 也 就 是 与 反馈 环 一 起 的 那 种 ， 这 都 是 为 了 在 反馈 
环 四 周 引入 足够 的 时 延 来 保证 时 延 传递 的 成 功 实施 。 在 时 延 传递 程序 之 后 ， 需 要 
在 合适 的 SFG 箭头 上 产生 足够 的 时 延 ， 从 而 使 得 时 延 从 图 像 箭头 上 移 除 并 被 合 
并 到 处 理 模块 中 ， 这 是 为 了 模仿 数据 通道 的 时 延 ， 又 叫 作 将 处 理 器 模型 做 入 到 
SFG 中 (Trainor 等 1997) 。 纯 时 延 指 的 是 剩 在 图 表 箭 头 处 的 任何 额外 的 时 延 ， 并 
且 它 对 纠正 时 序 是 必须 的 。 这 是 IRIS 中 正确 设计 电路 架构 的 基础 。 

当 为 一 个 如 同 FIR 滤波 器 的 非 递归 结构 使 用 割 集 重 定时 程序 时 ， 会 重复 将 时 
延 传递 应 用 到 增加 和 移 除 时 延 上 ， 直 到 在 架构 中 产生 足够 的 时 延 来 使 得 其 能 能 入 
处 理 器 来 代替 。 比 如 展示 出 反馈 环 的 IIR 滤波 器 的 递归 架构 ， 会 造成 额外 的 问 
题 。 如 果 时 延 传递 被 应 用 于 这 样 的 循环 ， 那 么 是 不 能 够 改变 循环 中 时 延 数量 的 ， 
因为 从 一 个 连接 中 移 除 的 时 延 一 定 是 传递 到 与 这 个 连接 传输 方向 相反 的 连接 上 。 
Pe a oe ee di 
周期 的 因数 ， 按 比例 表示 所 有 的 时 延 值 ， 并 使 用 时 延 传递 程序 重 配置 在 反馈 
周 的 寄存 器 增加 的 数量 ， 这 是 为 了 帮助 处 理 器 的 能 入 。 PERET AR 
递归 架构 会 依据 因数 降低 电路 效率 这 一 点 是 很 重要 的 ， 这 可 以 被 定义 为 采样 速率 
和 时 钟 速率 的 比值 。 

很 明显 ， 问 题 是 为 递归 结构 寻求 最 优化 值 。 这 个 值 太 小 将 导致 时 序 电路 的 错 
误 ， 同 时 这 个 值 太 大 将 在 架构 中 产生 额外 不 必要 的 寄存 器 。 这 个 问题 通过 利用 
8.4.3 节 中 强调 的 Kung (1988) 中 实施 的 分 析 得 以 解决 ， 它 确定 出 了 最 糟糕 的 
流水 线 周 期 ( 见 式 (8-3) 和 式 〈8-4) ) 。 


9.3.1 IRIS 中 重 定时 程序 的 实现 


为 了 在 IRIS 中 实施 重 定时 程序 ，SFG 原理 图 被 建 模 为 一 个 双 倍 加 权 的 图 
(Christofides 1975) ， 在 其 中 各 种 各 样 的 外 部 连接 器 和 算法 的 处 理 器 代表 了 图 表 
的 节点 和 这 些 节点 之 间 代 表 图 表 箭 头 的 连接 。 对 每 个 箭头 ， 两 个 加 权 可 以 定义 为 
SFGW 和 PW. SFG 双 ， 以 前 在 论文 中 (Yi 等 2005) 叫 作 SFG Weight， 它 指 的 是 在 

一 个 特别 的 箭头 上 迟延 元 件 的 数量 。 并 且 PW (以 前 的 ProWeight) 指 的 是 被 要 
求 在 那个 箭头 上 为 了 处 理 器 戏 人 而 存在 的 时 延 元 件 的 数量 。 最 大 的 允许 的 采样 周 
期 是 式 (9-1) 所 定义 的 。 

为 了 使 过 程 自 动 化 ，IRIS 使 用 了 来 自 图 论 的 Floy - Warshall 算法 (Parhi 
1999), ， 它 决定 了 在 双 权 重 图 中 最 快 的 循环 。 这 个 算法 解决 了 寻找 一 个 满足 式 
(9-2) 的 循环 由 的 问题 ， 在 这 个 等 式 中 ， 在 加 权 图 中 是 一 个 箭头 。 由 于 算法 已 
经 被 转换 为 了 一 个 最 小 化 的 问题 ， 因 此 目前 a WEE Z CÓ) 最 小 值 的 倒数 
(Trainor 等 1997), 
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eed 
> SFGWeight(e) 
eed 
Y ProcWeight( e) 
Z($ó) = max | eee 
之 SFCWeight(e) 


ProcWeight( e) 


(9-2) 


若 流水 线 周期 已 经 被 决定 ， 则 所 有 的 SFG 中 时 延 元 件 都 通过 这 个 值 按 比 例 
放大 ， 它 等 价 于 将 整个 结构 的 速率 调整 到 它 最 慢 的 循环 。 

在 时 延 比 例 后 ， 需 要 应 用 重 定时 程序 ， 这 是 为 了 补偿 一 般 的 SFG 处 理 器 和 
实际 模型 之 间 不 同 的 性 能 特点 。 在 IRIS 中 作为 一 个 线性 编程 问题 已 经 得 到 解决 
的 重 定时 程序 使 得 使 用 的 时 延 总 数 最 小 化 。 一 个 SFG 的 重 定时 给 节点 G 赋 了 一 
个 整数 值 。r(v) 值 是 是 从 节点 w 的 每 一 个 进来 的 箭头 中 提取 的 和 被 推 向 输出 箭头 
的 时 延 的 数量 。 如 果 时 延 从 输入 移动 到 输出 ， 那 么 r(v) 值 是 正 数 ， 否 则 是 负数 。 
式 (9-3) 表示 线性 编程 问题 的 目标 函数 ， 其 中 B(e) 表示 箭头 的 宽度 ,符号 
e(o?) 和 符号 e(? 一 2) 表 示 在 节点 上 箭头 各 自 的 起 点 和 终点 。 线 性 约束 的 方程 
涉及 构造 式 (9-4) 的 形式 的 表达 式 ， 在 这 个 表达 式 中 ,箭头 离开 节点 u 并 进入 
节点 v。 在 IRIS 中 的 重 定时 功能 利用 了 改进 的 单 形 技术 ( Gnizio 1985) ， 这 项 技 
术 广 泛 地 应 用 于 自动 化 的 线性 编程 解 算 絮 。 

min Zr p Pl) - Jd. BC) (9-3) 
r(u) Eo) s ProcWeight( e) SFCWeight(o) (9-4) 

为 了 说 明 在 IRIS 中 重 定时 程序 的 过 程 ， 使 用 了 早先 在 式 (8-3) 中 给 出 的 2 
阶 HR 滤波 器 。 这 个 例子 在 8. 4. 3 节 中 得 到 了 实现 ， 但 是 在 这 里 再 一 次 给 出 是 为 
了 说 明 IRIS 是 如 何 运行 的 。 图 9-3a 所 示 为 一 个 SFG， 其 中 MAC 处 理 器 被 假定 
拥有 零 时 延 。 

高 速 的 应 用 通常 要 求 流水 线 的 设计 ， 因 此 所 有 的 电路 节点 都 通过 使 用 流水 线 
式 的 MAC 处 理 器 实现 ， 在 这 个 处 理 器 中 ， 加 法 器 和 乘法 器 都 有 一 个 流水 线 站 。 
在 图 9-3b 中 注意 到 在 结构 中 每 个 连接 的 “宽度 ”等 于 沿 着 那个 连接 传输 的 数据 
的 字 长 。 需 要 使 用 在 图 9-3b 中 显示 的 节点 的 参数 值 来 计算 滤波 器 设计 具体 的 时 
延 值 和 数据 时 序 模型 。 

在 这 个 例子 中 ，MAC 处 理 器 架构 和 相应 的 MDP 模型 如 图 9-3b 所 示 。 一 个 
输出 的 时 延 等 于 所 有 从 输入 到 这 个 输出 的 数据 通道 的 最 大 时 延 。 比 如 ， 在 流水 线 
式 的 MAC 处 理 器 中 从 每 个 输入 到 输出 有 三 个 数据 通道 5,。 输 出 S, 的 时 延 是 2， 
它 等 于 从 输入 Pi, Q 到 输出 S, 的 时 延 。 有 着 最 大 时 延 的 通道 被 用 于 在 0 时 钟 周 
期 时 定义 输入 数据 时 序 的 格式 。 随 着 在 这 个 模型 中 输入 或 输出 的 所 有 位 同时 进入 
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或 离开 处 理 器 ， 数 据 时 序 格式 是 [0, 0, 0,…, 0], 称 其 为 [0]。 所 有 的 其 他 
输入 和 输出 数据 时 序 格式 需要 参考 这 个 通道 。 比 如 ， 信 和 号 的 时 延 S。 等 于 2 并 且 
是 所 有 输出 时 延 的 最 大 值 。 因 为 信号 P; 和 @i 数据 时 序 格式 等 于 如 图 9-3b 所 示 
的 [0, 0, 0, 0, 0, 0, 0, 0], 并且 从 S, BQ; 的 时 延 是 1， 信 号 5; 应 该 在 信 
号 P, fll Q; 之 后 进入 处 理 器 的 一 个 时 钟 中 ， 因 此 在 处 理 器 MDP 模型 中 ， 数 据 时 
间 格 式 是 [1, 1, 1, 1, 1, 1, 1, 1], 称 其 为 [ +1]。 图 9-3a 的 SFG 所 示 为 
两 个 在 图 9-3a 中 强调 的 循环 。 通 过 使 用 在 图 9-3b 中 所 示 的 MDP 模型 ， 评 估 式 
(9-1)， 给 出 如 式 (9-5) 的 结论 。 
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图 9-3 第 二 级 IIR 滤波 器 
a) 使 用 零 延 迟 MAC 的 IIR 滤波 器 的 实现 b) 流水 线 式 处 理 器 和 MDP 模型 


注意 到 循环 2 的 循环 界限 应 该 等 于 (1+1+1) 7 (1+1) =1-5， 它 不 同 
于 as。 原因 是 输入 上 的 数据 时 序 格式 也 许 是 在 一 个 不 同 的 时 间 上 ， 这 个 时 间 在 
时 延 比例 和 IRIS 时 延 传递 重 定时 程序 中 没有 被 考虑 到 。 考 虑 到 循环 2 中 输出 S, 
(MAC4) 和 输入 Si (MACS) 之 间 的 连接 ，5; 的 数据 时 序 格式 是 [ +1]， 它 意 
味 着 输入 数据 进入 到 MACS 中 比 其 他 的 输入 (P; 和 0;) 要 晚 一 个 时 钟 周期 。 当 
两 个 时 延 都 进入 到 处 理 器 MACS 中 来 合并 流水 线 处 理 器 时 ， 应 该 将 一 个 额外 的 时 
延 添加 到 输入 S; (MACS) 的 箭头 中 。 这 个 额外 的 时 延 能 被 用 于 模拟 MAC4 通过 
流水 线 造成 的 输出 时 延 。 第 二 级 IIR 滤波 器 的 流水 线 周 期 是 2， 并 且 因此 所 有 滤 
波 器 SFG 中 的 时 延 元 件 必须 在 重 定 时 发 生 之 前 按 因 数 2 的 比例 表示 。 在 时 延 比 
例 和 重 定时 之 后 ， 修 改 后 的 SFG 如 图 9-4 所 示 。 
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| Y PW(e) | 


Y, SFGW(e) 


eed 


| 2 PW(e) | 23 
eed —! 
vscwil !* 
eed 

a = max (a,,a)) = 2 (9-5) 


此 图 展示 了 输入 需要 通过 输入 上 时 延 数量 的 指示 进入 设计 中 的 时 间 点 。 实 际 
上 ， 这 些 时 延 不 需要 在 电路 中 得 到 实现 ， 但 是 可 以 表示 在 正确 的 运行 中 需要 的 
控制 。 


9.4 分 层 的 设计 方法 


在 以 前 章节 中 的 描述 已 经 表明 了 在 第 8 章 中 概述 的 重 定时 技术 是 如 何在 IRIS 
中 自动 化 的 。 工 具 流 的 输出 是 一 个 最 优化 的 电路 架构 ， 它 能 以 VHDL 编码 并 且 
通过 使 用 FPGA 布线 和 路 由 设计 工具 得 到 实现 。 这 个 例子 描述 了 DSP 的 功能 , 在 
这 个 功能 中 ， 这 个 设计 像 一 个 平面 SFG 的 表示 式 得 以 实现 。 逐 渐 的 ，DSP 硬件 
流 需要 应 对 分 层 ， 其 中 涉及 了 复杂 的 组 件 。 主 要 的 ， 以 一 种 分 层 的 风格 构建 设 
计 ， 其 中 会 产生 子 组 件 然后 被 用 于 构建 更 大 的 系统 。 当 以 提议 的 方法 应 用 重 定时 
时 ， 会 带 来 具体 的 问题 ， 比 如 ， 这 些 子 组 件 不 能 像 黑 盒 组 件 一 样 被 简单 地 对 待 ， 
因为 它们 包含 了 内 部 定时 。 

本 节 描 述 了 分 层 是 怎么 合并 到 设计 流程 中 的 ， 并 且 介 绍 了 白 盒 分 层 管理 的 概 
念 ， 它 使 得 之 前 产生 的 核 的 内 部 架构 有 一 些 改变 。 这 个 挑战 通过 使 用 一 个 波 数字 
椭圆 (Wave Digital Elliptic, WDE) 滤波 器 例子 (Lawson 和 Mirzai 1990) 得 到 
了 叙述 ， 这 个 例子 通过 使 用 原始 的 IRIS 工具 能 被 综合 。 因 此 ， 使 用 原始 IRIS 工 
具 阑 述 分 层 的 电路 的 定时 问题 是 一 个 好 例子 。 然 后 提出 了 白 盒 方法 并 且 应 用 于 综 
合 分 层 的 结构 。 也 提出 了 对 MDP 的 一 个 修正 来 处 理 分 层 的 自动 的 综合 问题 。 
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9.4.1 和 白 盒 分 层 的 设计 方法 


在 综合 过 程 期 间 ， 必 须 决 定 保持 设计 的 分 层 还 是 将 之 平坦 化 (Xinx 
Inc. 1999) 。 设 计 的 平坦 化 从 逻辑 的 角度 也 许 会 使 得 设计 更 快 更 小 ， 但 是 这 会 产 
生 其 他 在 设计 流程 中 的 并 发 症 。 首 先 ， 盲 目地 将 整个 设计 平坦 化 也 许 会 产生 逻辑 
的 一 个 单一 的 模块 ， 这 个 模块 会 有 足够 淹没 综合 工具 的 能 力 ， 造 成 难处 理 的 运行 
次 数 或 产生 一 个 次 最 优 的 网 表 。 此 外 ， 也 许 还 会 产生 一 个 高 度 杂 乱 的 网 表 ， 从 而 
不 能 维持 各 种 子 系统 的 规律 。 随 着 更 高 密度 的 FPGA 的 引入 ,分 层 设计 的 优势 带 
来 的 收益 使 得 任何 缺点 都 可 忽略 不 计 。 

一 个 分 层 的 方法 相 比 于 一 个 平坦 的 方法 的 缺点 是 设计 映射 不 能 最 佳 地 跨 过 分 
层 边 界 。 当 这 使 得 设备 无 效率 并 且 降 低 设 计 性 能 时 ， 分 层 的 方法 却 能 构建 出 有 效 
率 的 设计 分 区 ， 将 单个 模块 的 选择 和 增加 的 设计 变化 混合 在 了 一 起 ， 也 能 使 得 设 
计 流 程 的 管理 更 有 效 ， 并 且 通 过 开发 再 用 ， 减 少 了 设计 和 调试 时 间 。 为 了 受益 于 
分 层 的 方法 ， 需 要 有 效率 的 策略 来 划分 设计 ， 最 优化 的 分 层 及 调整 分 层 的 综合 
过 程 。 

分 层 的 设计 流程 的 意义 与 IP 核 再 用 的 观念 是 一 样 的 〈Keating 和 Bricaud 
1998 ) ， 在 其 中 ， 由 于 一 系列 系统 参数 ， 能 提前 产生 出 设计 规划 ， 从 而 使 得 这 些 
参数 能 得 到 广泛 的 应 用 (McCanny 等 1997) 。 这 在 第 10 章 和 第 12 章 中 将 得 到 
详细 的 讲述 。 因 此 ，IP 核 的 使 用 本 质 上 是 一 个 分 层 的 方法 。 

有 两 种 不 同 的 分 层 的 综合 方法 已 经 由 Bringmann 和 Rosenstiel 定义 ， 并 且 都 
是 基于 : 

1) 黑 盒 的 再 用 ， 在 里 面 以 前 综合 的 系统 作为 不 能 进入 内 部 结构 的 组 件 ; 

2) 白 盒 的 再 用 ， 在 里 面 以 前 综合 的 系统 作为 由 于 流水 线 或 重 定 时 而 改变 内 
部 结构 可 能 性 的 组 件 。 

这 两 种 方法 都 是 与 IP 核 设 计 方 法 相称 的 ， 在 这 种 方法 中 ， 系 统 设计 者 也 许 
有 有 限 的 知识 ， 但 却 能 控制 复杂 组 件 。 然 后 就 有 可 能 开发 产生 数据 通道 时 延 和 输 
人 定时 的 模型 ， 并 以 一 个 与 在 IRIS 中 提出 的 类 似 的 分 层 方法 来 执行 综合 。 正 如 
通过 使 用 WDE 滤波 器 例子 (Parhi 1999) 将 演示 的 ， 这 会 事与愿违 并 且 会 产生 
非常 无 效率 的 解决 之 法 。 

白 盒 分 层 的 管理 在 Synplify Pro 综合 工具 中 得 到 使 用 。 在 综合 过 程 期 间 ， 那 
些 工具 会 解散 尽 可 能 多 的 分 层 使 得 逻辑 能 有 效 并 且 最 优 地 跨 过 分 层 间 的 边界 并 且 
维持 着 快速 运行 速度 (Drost 1999) 。 然 后 Synplify Pro 尽 可 能 紧密 地 对 原型 进行 
重建 分 层 ， 这 保留 了 跨越 分 层 边 界 的 最 优化 。 这 产生 了 一 个 最 后 的 网 表 ， 这 个 网 
表 拥 有 与 原始 源 代码 同样 的 分 层 ， 这 保证 了 分 层 的 寄存 器 名 始终 如 一 ， 并 且 人 逻 辑 
主要 模块 依然 集中 在 一 起 。 这 个 结合 架构 的 具体 映射 来 处 理 分 层 边 界 的 方法 ， 产 
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生 了 一 个 高 效 且 有 效 的 最 优化 引擎 ,但 是 ,设计 者 需要 根据 Synplify Pro 中 组 件 
的 选择 ( 比如 选择 的 组 件 的 时 延 )， 手 动 地 研究 电路 层 的 问题 。 电 路 层 问 题 的 手 
动 解决 法 减少 了 在 算法 层 上 设计 空间 的 开发 ， 并 且 增 加 了 上 市 时 间 。 

本 节 展 示 了 一 个 基于 白 盒 再 用 的 设计 方法 ， 它 使 得 在 没有 影响 整个 架构 的 情 
况 下 能 够 改变 内 部 时 延 。 随 着 分 级 方法 的 开发 ， 需 要 将 电路 层 问题 上 的 自动 化 的 
综合 方法 添加 到 分 层 设 计 上 。 在 接 下 来 的 章节 中 ， 会 介绍 在 分 层 电 路 中 从 以 前 综 
合 的 子 系统 中 提取 MDP 模式 。 


9.4.2 从 以 前 的 综合 架构 中 提取 处 理 器 模型 的 自动 化 实现 


分 层 的 定时 间 题 通过 使 用 一 个 在 从 Parhi (1999) 中 获取 的 图 9-5a 中 简单 的 
5 fr WDE 滤波 器 电路 来 演示 。 如 第 2 章 简洁 描述 的 ，WDF 滤波 器 有 着 极 好 的 稳 
定性 〈 甚 至 在 非 线性 操作 条 件 下 产生 溢出 和 凌 整 的 影响 ) 、 低 系数 的 字 长 要 求 、 
固有 的 好 的 动态 范围 等 (Gazsi 1985) 。 它 们 非常 有 吸引 力 ， 这 都 归 因 于 它们 对 
系数 量化 的 低 敏 感度 ( Lawson 和 Mirzai 1990) 。5 [fr WDE 滤波 器 是 根据 模型 A、 
B. CAD 子 系统 构思 的 ， 如 图 9-5b ~ e 所 示 ， 并 且 包 含 了 乘法 运算 和 加 法 
操作 。 

提出 了 许多 步 又 来 以 分 层 的 方式 处 理 这 个 设计 。 首 先 ， 用 公式 表示 基本 算法 
操作 的 处 理 器 模型 。 为 了 取得 一 个 高 性 能 FPGA 实现 ， 假 定 每 个 乘法 器 和 加 法 器 
都 在 它们 的 输出 上 拥有 一 个 流水 线 寄存 器 ， 即 使 流水 线 的 各 层 能 在 IRIS 中 模拟 。 
这 与 FPGA 的 实现 相称 ， 在 这 个 FPGA 实现 中 ,在 组 件 层 使 用 流水 线 可 能 是 最 好 
的 选择 。 接 下 来 ， 使 用 基础 的 算法 处 理 器 来 综合 模块 子 系统 的 SFG。 然 后 使 用 综 
合 的 模型 架构 来 衍生 等 价 的 IRIS 处 理 器 。 最 后 ， 使 用 模型 A、B 、C AID 子 系统 
的 处 理 器 模型 来 综合 5 fr WDE 滤波 器 的 SFC. 

主要 的 困难 是 一 些 模型 ， 也 就 是 A 和 DD， 也 许 包 括 能 影响 决定 流水 线 周期 过 
程 的 寄存 器 。 第 一 ， 模 型 D 子 系统 中 的 时 延 在 高 层 电 路 中 造成 了 错误 的 流水 线 
周期 。 第 二 ， 和 凭借 原始 IRIS 能 自动 从 先前 综合 的 架构 中 提取 出 处 理 器 模型 的 技 
术 还 没有 得 以 实现 ， 因 此 ， 需 要 一 个 新 技术 。 最 后 ， 这 有 一 些 实例 ， 在 这 些 实例 
中 ， 分 层 的 电路 不 能 被 综合 ， 即 使 能 够 正确 地 计算 流水 线 周期 ， 这 是 因为 由 IRIS 
(Trainor 1995, ，Trainor 1997) 使 用 的 线性 编程 不 能 实现 重 定 时 。 供 代替 的 选 
择 是 使 分 层 的 SFC 层 平坦 化 直到 电路 能 被 综合 。 后 面 将 会 详细 地 讨论 这 些 方法 。 
注意 到 一 点 是 很 重要 的 ， 那 就 是 当 研 究 分 层 的 设计 时 ， 这 些 定时 问题 比 起 TRIS 
是 能 被 应 用 于 更 多 种 工具 上 的 。 

在 分 层 的 SFG 中 ， 会 提前 决定 MDP 模型 的 每 个 处 理 器 的 流水 线 周期 。 因 
此 ， 分 层 的 SFG 流水 线 周期 (Parhi 1999) 的 计算 成 为 一 个 在 IRIS 中 较 复杂 的 任 
务 。 为 了 计算 整个 电路 的 流水 线 周 期 ， 有 必要 假定 流水 线 周 期 等 于 1 然后 使 得 
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IRIS 能 将 它 改 变 成 所 有 模型 的 最 大 流水 线 周 期 。 当 IRIS 综合 和 重 定时 程序 被 应 
用 于 如 图 9-5b ~e 所 示 的 模型 A ~D 的 模型 层 子 系统 时 ，7 个 时 钟 周 期 的 最 大 流 
水 线 周 期 得 到 计算 ， 它 是 下 面 描述 的 模块 D Cap =7) 的 流水 线 周期 。 因 此 ， 整 
个 电路 流水 线 周 期 改变 到 了 7。 





d) 


e) 


图 9-5 5 阶 WDE 滤波 器 的 SFG (TA 和 TM 的 流水 线 是 0)。 摘 自 Hierarchical 
Synthesis of Complex DSP Functions Using IRIS by Y. Yi & R. Woods, IEEE Trans on 
Computer Aided Design, Vol.25, No.5, © 2006 IEEE 

a) 完全 的 SFG b) 模型 A c) MMB d) 模型 C e) MHD 


模型 A: 循环 限制 =3; 
模型 B: 无 循环 ; 
模型 C: 无 循环 ; 


$93 IRIS 行为 综合 工具 185 





模型 D: 循环 限制 =7。 

IRIS 确定 当 子 系统 架构 被 转变 成 一 个 处 理 器 模型 时 ， 子 系统 模型 中 时 延 的 
数量 会 尽 可 能 少 。 因 为 这 些 时 延 不 能 加 入 到 在 整个 5 Br WDE 滤波 器 的 综合 期 间 
发 起 的 重 定 时 进程 中 ， 这 提供 了 一 个 更 好 的 解决 之 法 。 因 此 ， 任 何 对 改变 模型 A 
中 的 输入 /输出 数据 流 必 需 的 重 定时 锁 存 器 会 出 现在 不 同 的 处 理 器 实体 之 间 。 这 
使 得 IRIS 在 5 阶 WDE 滤波 器 中 的 各 种 子 系统 内 部 和 之 间 使 用 重 定时 锁 存 器 的 总 
数 的 最 小 化 更 易 实 现 。 

对 模型 A 子 系统 的 综合 架构 如 图 9-6a 所 示 。 输 入 和 输出 的 重 定 时 值 能 通过 
使 用 一 个 改进 的 单一 线性 编程 来 获得 (Vajda 1981) 。 一 个 输入 的 重 定时 值 指 的 
是 从 子 系统 外 面 移动 到 子 系统 里 面 的 时 延 的 数量 。 比 如 ， 输 入 的 重 定时 值 In 为 
4， 这 意味 着 4 个 时 延 被 移动 到 了 子 系统 中 。 输 出 的 重 定时 值 Out 为 0， 意 味 着 没 
有 时 延 从 子 系统 移动 到 外 面 。 





In Out 
8 位 jisb [ 8 位 jisb 


a) b) 


图 9-6 模型 A 子 系统 (TM =1 及 TA =1)。 摘自 Hierarchical Synthesis of Complex 
DSP Functions Using IRIS by Y. Yi & R. Woods, IEEE Trans on Computer Aided Design, 
Vol. 25, No.5, © 2006 IEEE 

a) 综合 架构 b) MDP 模型 


为 了 产生 如 图 9-6a 所 示 的 重 定时 的 模型 A 架构 的 MDP 模型 ， 首 先 研 究 如 图 
9-5b 所 示 的 模型 A 子 系统 的 原始 SFG 的 算法 表示 式 ， 在 里 面 乘法 器 和 加 法 器 的 
时 延 是 0。 输 入 和 输出 分 别 同 时 抵达 和 离开 子 系统 ， 因 此 输入 和 输出 的 数据 时 序 
格式 是 0 并 且 输 出 的 时 延 也 是 0。 在 乘法 器 和 加 法 器 时 延 改变 为 1 之 后 ，IRIS 重 
定时 子 程序 被 用 于 处 理由 乘法 器 和 加 法 器 的 时 延 造成 的 时 序 问题 。 输 入 In 的 重 
定时 值 就 是 当 一 个 处 理 器 的 时 延 改变 时 ， 需 要 的 时 延 的 数量 ， 并 且 会 被 添加 到 输 
入 。 输出 Out 的 数据 时 序 格式 将 会 被 改变 到 4， 因 为 输出 Out 在 4 个 时 钟 周期 之 
后 出 现 。 综 合 的 架构 会 在 将 4 个 时 延 移动 到 模型 A 中 并 且 执行 重 定时 之 后 产生 。 
模型 A 子 系统 实现 的 MDP 表示 式 如 图 9-6b 所 示 。 

有 一 个 输入 和 一 个 输出 的 模型 A 子 系统 是 一 个 简单 的 子 系统 ， 并 且 因 此 将 
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使 用 模型 B 子 系统 时 延 多 点 输入 和 输出 的 提取 方法 。 模 型 B 子 系统 中 循环 的 流 
水 线 周期 均 不 为 7 (等 于 系统 流水 线 周期 )。 在 原始 模型 B 中 ， 同 时 出 现 的 所 有 
输入 输出 和 它们 的 数据 时 序 格式 及 输出 时 延 都 是 0。 重 定时 之 后 ， 模 型 B 子 系统 
的 各 个 输入 和 输出 也 许 会 在 不 同时 钟 周期 中 出 现 ， 如 图 9-7a 所 示 ， 其 中 ， 输 入 
的 重 定时 值 ， 也 就 是 ml 和 输出 都 如 括号 中 所 示 ， 比 如 (+5). 

IRIS 将 子 系统 中 所 有 输入 的 最 大 的 重 定 时 值 定 为 B， 并 且 将 [ +B] 时 延 添 
加 到 所 有 输入 中 。 所 有 输出 的 数据 时 序 格式 都 将 被 改变 为 B， 因 为 B 时 延 被 嵌入 
到 了 输入 中 。 在 IRIS 重 定时 之 后 ,输入 箭头 中 时 延 的 数量 将 减 小 那个 输入 的 重 
定时 值 ， 并 且 等 于 重 定时 值 的 时 延 数量 ， 将 被 添加 到 输出 上 。 对 于 模型 B，B 值 
为 5， 并 且 这 些 时 延 被 添加 到 所 有 输入 中 。 重 定时 之 后 ， 在 输入 In3 箭头 上 的 时 
延 的 数量 被 改变 到 1 并 且 等 于 B. 值 减 去 输入 In3 的 重 定 时 值 。 输 出 Out2 箭头 的 
时 延 数 量 是 Out2 的 重 定时 值 并 且 等 于 4。 整 个 程序 如 图 9-7b 所 示 。 一 个 输出 的 
时 延 被 定义 为 根据 时 钟 周期 ， 在 第 一 个 操作 数 输入 和 相应 的 输出 的 第 一 个 操作 数 
出 现 之 间 的 时 差 。 比 如 ， 输 出 Outl 与 所 有 输入 相关 ， 第 一 个 输入 在 0 时 钟 周期 
时 输入 ， 输 出 的 出 现时 间 是 5， 因 此 输出 Outl 的 时 延 是 5。 最 后 将 被 用 在 下 一 层 
综合 中 的 MDP 模型 如 图 9-7c 所 示 。 

In1(+5) 





图 9-7 模型 B 子 系统 (TM =1 3-H TA =1)。 摘 自 Hierarchical Synthesis of Complex 
DSP Functions Using IRIS by Y. Yi & R. Woods, IEEE Trans on Computer Aided Design, 
Vol. 25, No.5, © 2006 IEEE 

a) 综合 架构 b) 模型 MDP 推导 进程 c) MDP 模型 
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9.4.3 IRIS 中 分 层 的 电路 实现 


对 所 有 不 同 的 处 理子 系统 而 言 ， 一 旦 获得 了 在 先前 章节 中 描述 的 那 种 类 型 的 
处 理 器 模型 ， 那 么 合适 的 模型 会 被 府 人 到 更 高 层 SFG 的 处 理 节点 中 。 如 前 面 所 
述 ， 在 更 高 层 的 电路 中 需要 架构 的 重新 安排 和 重 定时 ， 那 是 因为 在 更 低层 处 理 器 
时 延 中 使 用 的 流水 线 处 理 器 的 改变 。 

分 层 架构 的 重 定时 在 两 个 阶段 中 实行 : AY RE EL Bi A Mb tk A. (Kung 
1988)。 但 是 ， 先 前 使 用 的 双 加 权 图 表示 式 不 足以 解决 分 层 电 路 中 的 定时 间 题 ， 
是 因为 输入 可 以 出 现在 不 同 的 时 间 点 。 例 如 ， 在 模型 B 子 系统 中 输出 Out3 的 时 
延 是 5， 因 此 在 输出 Ou 箭头 中 需要 5 个 时 延 来 艇 人 到 处 理 器 中 。 人 额外 的 一 个 时 
延 会 在 处 理 器 租 入 后 被 添加 到 输入 In3 箭头 中 。 原 始 的 IRIS 工具 不 能 代表 加 权 
图 中 额外 的 一 个 时 延 ， 也 因此 不 能 有 效 地 解决 问题 。 为 了 处 理 这 个 问题 ， 引 入 了 
三 加 权 图 ， 其 中 各 种 外 部 连接 器 、 算 法 处 理 器 和 人 允许 信号 通道 分 支 的 电线 接头 代 
表 了 图 中 的 节点 ， 并 且 这 些 节 点 之 间 的 连接 代表 图 中 箭头 。 对 于 每 个 箭头 ， 三 加 
权 得 到 如 下 定义 。 当 SFGW 和 PW 因为 原始 IRIS 得 到 定义 时 ，PWI (或 严格 的 
ProWeightIn) 是 新 的 并 且 被 添加 来 解决 上 述 问题 ， 随 之 ，PW 被 改变 为 PWO， 也 
就 是 ProcWeightOut。 

SFCVW 一 一 一 个 特殊 箭头 上 时 延 的 数量 ; 

PWO 一 一 处 理 器 舱 入 所 需要 的 产生 时 延 的 数量 ; 

PWI 一 一 为 了 处 理 器 租 入 ， 添 加 到 箭头 上 时 延 的 数量 。 

箭头 的 PWO 值 与 起 始 处 理 器 的 输出 有 关 并 且 是 输出 的 时 延 ， 这 个 时 延 是 输 
出 引 脚 的 数据 时 序 格式 表达 式 的 最 小 值 (这 是 为 了 迎合 这 里 没有 讨论 的 情况 ， 
在 这 种 情况 下 数据 是 位 偏 移 且 不 是 位 并 行 的 ) 。 箭 头 的 PWI 值 与 最 终 处 理 器 的 输 
入 信号 有 关 ， 并 且 等 于 输入 引 脚 的 数据 时 序 格式 表达 式 的 最 小 值 。 箭 头 的 PWO 
和 PWI 值 与 连接 器 和 电线 接头 有 关 并 且 等 于 0。 流 水 线 周 期 由 于 分 层 的 电路 更 改 
AX (9-6) 且 线 性 编程 问题 的 目标 函数 和 限制 如 式 (9-7) 所 示 。 新 的 PWIS 
数 因为 分 层 设计 被 添加 到 正确 的 式 (9-1) 和 式 (9-4) 中 。 


Y, ng? WOCe) - X. PWICO 





Q = max (9-6) 
之 .-,SFGW(e) 
min Erlo = BG) - P BG) 
r(u) - r(v) = PWO(e) - SFGW(e) = PWI(e) (9-7) 


随 着 低级 电路 图 中 子 系统 的 算法 的 时 延 能 决定 更 高 级 电路 的 流水 线 周 期 ， 通 
过 使 用 式 (9-6) 计算 流水 线 周 期 ， 分 层 SFG 的 (o) RA IRIS 中 一 个 复杂 的 任 
务 。 在 子 系统 的 MDP 模型 产生 之 后 ，IRIS 将 计算 整个 5 阶 WDE 滤波 器 流水 线 周 
期 ， 将 在 以 下 章节 中 介绍 。 
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9.4.4 分 层 电路 中 流水 线 周 期 的 计算 


在 一 个 5 Bt WDE 滤波 器 的 例子 中 ， 模 型 A AD 包含 了 一 些 寄存 器 ， 这 些 寄 
存 器 会 影响 由 IRIS 重 定时 子 程序 决定 的 流水 线 周期 。 从 之 前 的 章节 中 ， 模 块 层 
子 系统 的 流水 线 周期 为 ?7， 它 比 最 初 值 的 1 更 好 。 因 此 ， 整 个 系统 流水 线 周期 改 
变 到 7。 模 型 A ALB 子 系统 的 综合 MDP 模型 如 图 9-6b 和 9-7e 所 示 。 一 样 的 自 
动 处 理 器 模型 提取 物 被 应 用 到 模型 C 和 D 中 ,并 且 综 合 电路 和 图 形 化 的 表达 式 
如 图 9-8 和 图 9-9 所 示 。 





图 9-8 模型 C 子 系统 (TM=1 和 TA=1) 
a) 综合 架构 b) MDP 模型 





图 9-9 模型 D 子 系统 (TM =1 A TA=1) 
a) 综合 架构 b) MDP 模型 


一 旦 获得 了 所 有 的 处 理 器 模型 ， 合 适 的 模型 就 会 被 徐 人 到 更 高 层 SFG 的 处 
理 节点 中 ， 正 如 之 前 所 阐述 的 ， 在 更 高 层 的 电路 中 需要 架构 的 重 定时 ， 那 是 因为 
更 低级 的 处 理 器 时 延 中 的 变化 。 

由 于 在 原始 SFG 子 系统 中 的 时 延 在 更 高 级 的 分 层 综合 中 不 能 在 式 (9-6) 中 
FAVE SFG6W， 因 此 通过 使 用 式 〈9-6) ， 分 层 架 构 的 流水 线 周 期 会 在 许多 情况 下 产 
生 错 误 。 例 如 ,5 BY WDE 滤波 器 ( 见 图 9-5a) 展示 了 以 下 两 个 递归 循环 。 通 过 
使 用 PWO/PWI 和 SFGW 值 ， 带 入 式 (9-6) 后 产生 了 以 下 结论 。 

循环 1: B (0) 一 B (1) 一 C 一 B (1) B (0) 一 D 
x. ProcWeightOut(e) - Ex Proc WeightIn( e) 
ecó ecó 


zx SFGWeight( e) 
eed 


0 = 
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re ee Pe a 

= : = 

循环 2: 模型 B (0) 一 模型 B (1) 一 模型 C 一 模型 D 一 模型 C 一 模型 B 
(1) 一 模型 B (0) 一 D 


* ProcWeightOut( e) - > Proc WeightIn(e) 
eed eed 


Y, SFGWeight( e) 
eed 
QUvl$ e1*4344925-9500—L1-1-1-1-90. 


1 = 17 
关键 循环 是 循环 2， 它 的 流水 线 周期 是 17, 但 是 循环 2 数据 通道 包括 了 模型 D 
子 系统 中 的 一 个 算法 时 延 ， 并 且 它 的 流水 线 周期 应 该 是 12， 也 就 是 [23/(1 +1)]。 
此 外 ， 当 式 (9-6) 被 用 于 计算 如 图 9-5 所 示 的 循环 3 时 ， 流 水 线 周 期 等 于 无 
穷 。 这 是 因为 模型 B 子 系统 的 输出 Ou 仅 与 输入 Inl 和 In2 有 关 。 模 型 B (0) 
和 模型 B (1) 之 间 的 连接 不 能 形成 一 个 循环 。 为 了 解决 这 两 个 问题 ， 除 了 数据 
时 序 格式 和 时 延 外 ， 需 要 添加 一 些 其 他 参数 到 输出 上 。 
引入 一 个 输出 的 相关 输入 矢量 并 且 描 述 了 由 一 个 数据 通道 连接 到 那个 输出 的 
输入 。 比 如 ， 在 模型 B 中 的 输出 Out2 的 相关 输入 向 量 是 [In1，In2]。 模型 A~D 
的 相关 输入 向 量 见 表 9-1。 如 果 在 一 个 子 系统 中 从 输入 wu 到 v 有 一 条 通道 ， 那 么 
会 计算 出 称 作 数据 通道 时 延 对 的 信息 (时 延 和 函数 时 延 )。 函 数 时 延 不 能 提高 时 
延 ,但 是 会 产生 校正 函数 并 能 用 作 SFSGW。 其 中 的 时 延 指 的 是 流水 线 时 延 并 且 用 
fE PWO。 如 果 在 w 和" 之 间 有 多 重 数据 通道 ， 那 么 函数 时 延 的 值 将 不 同 ， 并 且 工 
RIS 需要 所 有 的 信息 对 来 计算 流水 线 周 期 。 如 果 数 据 通道 时 延 中 的 函数 时 延 是 一 
样 的 ， 那么 将 选择 最 大 的 时 延 值 来 计算 流水 线 周期 。 如 果子 系统 不 包括 函数 时 
延 ， 那 么 就 不 需要 数据 通道 时 延 对 ， 因 为 能 使 用 MDP 模型 三 倍加 权 来 计算 流 
水 线 周 期 。 如 果子 系统 包括 了 函数 时 延 ， 将 同时 使 用 MDP 模型 和 数据 通道 对 
来 计算 流水 线 周期 。MDP 模型 决定 PWI 并 且 数 据 通道 时 延 对 决定 PWO 和 SF- 
GW 值 。 包 括 函 数 时 延 的 模型 A 和 DD 的 数据 时 延 对 见 表 9-2。MDP 现在 包括 了 
4 个 参数 ， 分 别 是 数据 时 序 格式 、 数 据 通道 时 延 、 相 关 输 入 向 量 和 数据 通道 时 
延 对 。 
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表 9-1 模型 A~ 模 型 D 输出 关系 


Outl [Inl, In2, In3] | [Inl, In2, In3] [Inl, In2] 
Out2 pe Mee ent [Inl, In2] [Inl, In2, In3] [Inl In2] 


Out3 port [Inl, In2, In3] | [Inl, In2, In3] [Inl In2] 
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表 9-2 模型 A 和 模型 D 的 数据 通道 时 延 对 比 


模型 A 
(4, 0) (5, 1) (5. 0)/(12; £) 


通过 应 用 这 个 方法 ， 能 够 计算 更 高 级 电路 的 流水 线 周期 。IRIS 检测 SFG 中 
的 循环 并 决定 时 延 比例 是 否 必要 。 在 高 级 的 5 阶 WDE 滤波 器 中 有 25 个 循环 。 关 
键 循环 的 计算 如 下 所 示 ， 并 且 此 电路 的 流水 线 周 期 是 13。 
循环 1: 模型 B (0) 一 模型 B (1) 一 模型 C 一 模型 B (1) —E B (0) 












(4, 0) (11, 1) 






(5, 0) (12,1) 
(7, 1) 












一 了 
Y, PWO(e) - Y, PWI(e) 
_ ee 中 eed 
b ia Y, SFGW(e) 


eed 
_14+14+44+44+5-0-0-1-1-0 _ 
Cg eg aS re 
循环 2: 模型 B (1) 一 模型 C 一 模型 B (1) 一 模型 AD 
> PWO(e) - Y PWI(e) 


eed eed 

Y SFGW(e) 

eed 
c4 4443-4 9:9. 
= See Sse = 


9.4.5 分 层 电路 中 的 重 定 时 技术 


在 时 延 比 例 之 后 ， 使 用 线性 编程 程序 来 实施 处 理 器 的 做 人 人。 在 一 些 场合 ， 甚 
至 当 能 够 正确 计算 流水 线 周 期 时 ， 分 层 电路 仍 不 能 被 综合 ， 因 为 线性 编程 没有 解 
决 之 法 。IRIS 的 重 定时 程序 将 从 最 高 级 实行 综合 并 产生 电路 。 和 否则 ， 会 使 有 冲 
突 的 子 系统 平坦 化 然后 再 综合 电路 。 如 果 在 这 一 层 电 路 综合 的 结果 不 存在 ， 则 
IRIS 工 具 反 复 的 将 冲突 的 子 系统 平坦 化 并 且 重 定时 直到 电路 能 够 被 综合 。 目 前 ， 
IRIS 工具 不 能 自动 地 做 这 件 事 。 

线性 编程 没有 解决 之 法 ， 因 为 一 些 限制 是 有 矛盾 的 。 比 如 ， 在 式 (9-7) 
中 ， 从 模型 B (0) 的 输出 Out2 到 模型 B (1) 的 输入 In2 的 箭头 的 限制 是 r( BO) 
-r(B1) 宇 1， 并且 从 模型 B (1) 的 输出 Ou 到 模型 B (0) 的 输入 In3 的 箭头 
限制 是 r(B1) -r(B0) =3。 这 两 个 限制 是 冲突 的 ， 因 此 线性 编程 没有 解决 之 法 。 
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在 这 种 情况 下 ，IRIS 重 定时 程序 会 让 模型 B (0), B (1) 、C 和 D 平坦 化 、 执 行 
重 定时 并 且 将 平坦 化 的 电路 转换 回 分 层 电路 。5 阶 WDE 滤波 器 的 部 分 平坦 化 的 
SFG 的 三 倍加 权 图 如 图 9-10 所 示 ， 在 其 中 平坦 化 子 系统 的 输入 和 输出 是 为 了 
PWO 和 PWI 并 被 用 作 图 形 节 点 。 重 定时 之 后 ， 对 5 阶 WDE 滤波 器 的 综合 架构 
如 图 9-11 所 示 。 它 能 被 转换 回 分 层 的 表示 式 。 比 如 ， 模 型 B (0) 子 系统 在 重 定 
时 过 程 中 被 平坦 化 且 模 型 B (0) 的 输入 和 输出 被 做 了 记号 ,并且 与 三 倍加 权 图 
形 的 相应 节点 相关 联 ， 这 都 是 为 了 在 重 定时 后 被 转换 回 模 型 B (0) 子 系统 。 为 
了 检测 这 个 技术 的 正确 性 ，5 阶 WDE 滤波 器 的 整个 平坦 化 的 电路 通过 使 用 IRIS 
工具 得 到 增强 并 综合 。 重 定时 的 SFG 如 图 9-11 所 示 。 
模型 A0 模型 Al 





图 9-10 5 Bt WDE 滤波 器 的 部 分 平坦 化 SFG 的 三 倍加 权 图 


模型 A0 模型 Al 





9-11 TA=1 和 TM=1 的 5 阶 WDE 滤 波 器 流水 线 层 的 重 定时 SFC 


在 综合 期 间 ，IRIS 会 产生 5 Br WDE 滤波 器 电路 结构 化 的 VHDL 描述 。 定 义 
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了 每 个 处 理 器 类 型 (乘法 器 和 加 法 器 ) 和 时 延 模块 并 且 规范 了 它们 的 互 连 。 会 
产生 模块 (A0，A1，B0，B1，C 和 D) 和 滤波 器 架构 的 独立 代码 块 。 这 使 得 整 
个 分 层 的 VHDL 描述 由 于 逻辑 综合 被 存 人 Synplify Pro， 并 且 因 此 经 Xilinx Design 
Manager 被 存 人 物理 的 实现 中 。 

5 fr WDE 滤波 器 在 关键 路 径 和 使 用 硬件 方面 的 比较 见 表 9-3。 图 9-5 所 示 的 
WDEF 是 原始 滤波 器 ， 图 9-11 所 示 的 PWDEF 是 最 优化 的 设计 。 图 9-12 所 示 的 
电路 是 由 原始 IRIS 工具 产生 的 原始 的 流水 线 式 WDE 滤波 器 (Original Pipelined 
WDE Filter, OPWDEF) , PWDEF 和 OPWDEF 电路 的 关键 路 径 减 少 了 93% ， 超 过 
了 WDEF 电路 。PWDEF 相 较 于 OPWDEF 在 时 延 上 下 降 了 27% 。 表 9-4 和 表 9-5 
详细 地 给 出 了 使 用 Virtex - II XC2V80fg144 -5 芯片 后 WDEF #1 PWDEF 系统 的 8 
位 输入 输出 布局 的 信息 。 通 过 设计 流 获得 的 实现 结果 显示 了 对 PWDEF 电路 而 
言 ， 系 统 性 能 能 达到 173MHz。 由 于 流水 线 寄存 器 ， 重 定时 设计 比 它们 相对 应 的 
无 流水 线 设计 拥有 更 小 的 路 由 互 连 时 延 。 


模型 A0 模型 Al 





图 9-12 使 用 原始 IRIS 工具 ， 5 BY WDE 滤波 器 的 重 定时 SFG (TA =1 H TM =1) 


表 9-3 特征 的 比较 












硬件 元 件 
关键 路 径 

[ mum | mum | 
mum o» os: 
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表 9-4 Virtex - 开 对 于 采样 率 的 布局 后 的 结果 


关键 路 径 (ns) 
时 钟 (MHz) 
25.6 X 














9.5 RIS 硬件 共享 (调度 算法 ) 的 实现 


第 9.4 节 提出 了 新 IRIS 工具 的 主要 功能 ， 它 让 设计 者 能 够 快速 并 且 自 动 地 
从 分 层 算法 的 SFG 表达 式 中 综合 一 个 电路 架构 ， 并 且 评 估 综 合 架 构 上 的 时 延 和 
数据 时 序 格式 的 影响 。 在 有 关 架 构 的 开发 中 ， 设 计 者 也 许 想 用 硬件 共享 来 研究 解 
决 之 法 。 这 需要 复杂 的 控制 ， 因 此 调度 和 产生 电路 的 控制 方式 是 必要 的 。 本 节 阐 
WY IRIS 工具 中 的 调度 算法 和 控制 器 ， 也 就 是 分 层 调度 (Yi 等 2002) 的 扩展 
Minnesota 架构 (Extended Minnesota Architecture Synthesis, EMARS) 调度 算法 。 
这 是 对 由 开发 了 内 部 和 彼此 迭代 优先 级 限制 ( Wang 和 Parhi 1994) 提出 的 MARS 
调度 算法 的 扩展 。 本 节 集 中 于 JRIS 的 EMARS 调度 算法 的 采用 ， 这 是 为 了 实现 调 
度 和 硬件 共享 架构 的 转变 。 一 个 改进 的 折 又 转换 技术 为 硬件 设计 控制 电路 提供 了 
一 个 系统 化 的 技术 ， 在 这 项 技术 中 ， 几 个 算法 操作 都 是 时 分 复 用 到 一 个 单个 功能 
部 件 上 的 。 

对 MARS 算法 的 主要 改变 是 改变 循环 界限 的 计算 来 应 用 复杂 组 件 和 分 层 的 
电路 。 对 最 初 的 调度 、 解 决 冲突 、 调 度 和 资源 分 配 也 需要 相应 的 改变 。 折 车 转换 
(Parhi 1999) 为 设计 控制 电路 提供 一 个 系统 化 的 技术 ， 其 中 几 个 算法 操作 都 是 
时 分 复 用 到 一 个 单个 功能 部 件 上 的 。 折 至 等 式 的 推导 是 基于 这 个 技术 的 。 在 分 层 
的 架构 中 ,改变 了 折合 等 式 来 适合 分 层 的 架构 。EMRAS 算法 的 主要 步骤 如 下 
所 示 。 

步骤 1: 递归 节点 的 调度 和 资源 分 配 算法 

高 级 架构 的 综合 目标 是 当 使 用 现实 技术 的 限制 时 ， 将 一 个 算法 的 描述 转换 为 
一 个 有 效率 的 架构 设计 。 当 满足 速度 和 面积 要 求 时 ， 结 果 的 架构 一 定 保留 了 原始 
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的 功能 。 正 如 之 前 所 述 ， 系 统 的 递归 部 分 决定 了 最 大 的 采样 速率 。 首 先 要 考虑 对 
递归 节点 的 调度 。 

步骤 1.1: 循环 搜索 和 迁 代 界限 

若 指定 了 一 个 循环 ， 则 原始 的 MARS 计算 循环 界限 如 下 : 

T, 
Tis, à p. (9-8) 

vh, T, = 循环 7 的 循环 计算 时 间 并 且 Du = 循环 j 中 循环 时 延 的 数量 。 和 迭代 界 
限 能 从 循环 界限 值 中 通过 确定 最 大 的 循环 界限 来 计算 。 虽 然 原 始 的 MARS 仅仅 
研究 所 有 输入 都 是 同时 输入 ， 所 有 输出 也 都 是 同时 输出 的 简单 组 件 ， 但 在 这 里 研 
究 了 复杂 和 分 层 的 架构 模块 的 计算 式 。 在 EMARS 中 ， 关 键 路 径 的 运算 时 间 和 循 
环 界限 的 计算 如 下 : 


Y PWO(e) - Y, PWI(e) 


人 (9-9) 
ds Y, SFGW(e) 
eej 
Te, = Y, PWO(e) - Y, PWI(e) (9-10) 
eep eep 


式 中 ，PWO(e)、PWI(e) 和 SFGW(e) 的 意义 与 式 (9-6) 给 出 的 一 样 。7 和 的 
值 分 别 指 的 是 循环 j 和 数据 通道 p。 

2 [fr IR 滤波 器 被 用 于 说 明 原 始 MARS 调度 算法 的 限制 ， 并 指出 式 (9-9) 
和 式 (9-10) 对 于 2 阶 IIR 滤波 器 是 正确 的 。 

看 一 下 如 图 9-13a 所 示 的 包含 5 个 MAC 的 2 阶 TIR 滤波 器 的 指标 。 据 推测 ， 
每 个 乘法 器 和 加 法 器 拥有 1 个 单元 的 运算 时 间 ， 它 与 FPGA 实现 相当 。MAC 的 
MDP 模块 如 图 9-13b 所 示 ， 并 且 滤 波 器 节点 的 关系 图 和 了 PCGCH 值 如 图 9-13c 所 示 。 
这 个 滤波 器 包含 了 一 个 拥有 两 个 递归 节点 (MACA 和 MACS) 的 递归 部 分 ， 以 及 
一 个 拥有 3 个 非 递 归 节 点 的 非 递 归 部 分 (MACI, MAC2 和 MAC3 ) 。 在 这 个 滤波 
器 中 有 两 个 循环 : 

循环 1: MACS (Pi) 一 MAC5 (S,) D, 

循环 界限 =“ =2 

循环 2: MAC4 (P;) 一 MAC (S,) 一 MAC5 (S;) 一 MAC5 (S,) 一 D4 一 D3; 

F E EE 

要 处 看 限 = |] 一 一 人 

关键 路 径 : MAC1 (S,) 一 MAC2 (S,) 一 MAC3 (S,) 一 MAC4 (S,) 一 
MACS (S,) 


关键 路 径 的 运算 时 间 =2 -1+2 -1+2-1+2-1+2=6 
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D 








MACI MAC2 MAC3 MAC4 MACS 





b) 可 


图 9-13 a) 使 用 MAC 的 2 阶 IIR 滤波 器 的 SFG; b) 流水 线 MAC 架构 ; c) 依赖 图 和 节 
点 部 分 PCH 值 
摘自 Hierarchical Synthesis of Complex DSP Functions Using IRIS by Y. Yi & R. Woods, IEEE Trans 
on Computer Aided Design, Vol.25, No.5, © 2006 IEEE 


因此 需要 用 于 调度 递归 节点 的 循环 总 数 是 2， 即 循环 1 和 循环 2。 在 滤波 器 
中 ， 和 迭代 的 界限 是 两 个 单元 且 关 键 路 径 的 运算 时 间 是 6 个 单元 。 

步骤 1.2 最 初 的 调度 | 

在 步骤 1. 1 中 计算 了 和 迭代 界限 〈 或 者 流水 线 周 期 ) 。 和 迭代 时 间 分 区 被 定义 为 
时 间 步 长 ， 而 执行 任务 的 时 间 步 长 是 模 上 迭代 界限 后 的 时 间 步 长 (Wang and 
Parhi 1994) 。 例 如 ，2 阶 IIR 滤波 器 的 迭代 界限 是 2， 因 此 有 两 个 迭代 时 间 分 区 
(0，1)。 如 果 任 务 在 时 间 步 长 为 5 上 被 调度 ， 则 这 个 任务 被 分 配 到 5 模 2 的 时 间 
分 区 1 上 。 处 理 器 在 MARS 中 更 低 的 界限 给 出 如 下 : 
[5 x =] 

POP 

Xu, M, =U 型 运算 的 数量 ，7, =U 型 运算 的 运算 时 间 ，P, =U 型 处 理 器 的 流水 
ARCH. T 2 ik (UA 

5j MARS 调度 算法 中 的 单个 运算 相 比 ，IRIS 中 分 层 架 构 中 的 不 同 输出 会 有 
不 同 的 计算 次 数 和 流水 线 重 数 。 在 EMARS rp, T, 指 的 是 一 个 U 型 运算 的 所 有 输 
出 的 最 长 计算 时 间 ，P, 是 一 个 U 型 运算 的 最 高 流水 线 级 别 。MAC 的 P, fO T, 与 
输出 S, 相关 。 式 (9-12) 给 出 了 在 2 阶 TIR 滤波 器 中 MAC 的 更 低 界限 ， 那 意味 
着 需要 3 个 MAC 处 理 器 。 


(更 低 界限 )wAc = [22] = 3 (9-12) 
此 时 此 刻 ， 产 生 的 调度 矩阵 对 每 种 运算 类 型 都 有 一 个 相应 的 矩阵 。 这 些 矩阵 





(Lowerbound), - (9-11) 
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表示 一 个 迭代 时 间 分 区 中 被 调度 的 每 个 递归 节点 ， 在 这 些 和 矩阵 中 ， 行 表示 迭代 时 
间 分 区 ， 而 列表 示 循 环 和 部 分 循环 。 每 个 循环 或 部 分 循环 都 以 一 种 方式 被 分 配 到 
一 组 列 中 ， 这 种 方式 就 是 ， 第 一 列 对 应 最 关键 的 循环 而 最 后 一 列 对 应 最 不 重要 的 
循环 。 最 关键 的 循环 从 时 间 0 开始 第 一 个 被 调度 ， 并 且 保 持 着 内 部 迭代 优先 级 的 
限制 。 

Æ IRIS 中 ,用 于 产生 调度 矩阵 的 内 部 依赖 限制 不 同 于 简单 的 运算 ， 因 为 
IRIS 中 改进 后 的 MDP 模型 的 所 有 输出 都 在 不 同时 间 点 进入 到 处 理 器 中 。 在 
EMARS 算法 中 ， 节 点 的 起 始 调度 时 间 指 的 是 数据 时 序 格式 为 [0] 的 一 个 输入 
引 脚 的 时 间 。 比 如 ， 图 9-13b 所 示 的 MAC 处 理 器 的 调度 时 间 由 输入 引 脚 P;: 和 Q; 
决定 。 如 果 从 处 理 器 A 到 B 有 一 个 内 部 的 依赖 约束 ， 那 么 处 理 器 B 的 调度 时 间 


- 如 下 所 示 : 


Tg T, +L, -Dg (9-13) 
IF, T, = 处 理 器 A 的 调度 时 间 ，Ts = 处 理 器 B 的 调度 时 间 ，LA = 处理 器 A 的 
输出 引 脚 的 时 延 ，Ds = 处 理 器 B 的 输入 引 脚 的 数据 时 序 格式 的 最 小 值 。 
对 于 2 Br IR 滤波 器 的 例子 ， 第 一 个 调度 关键 的 循环 1， 并 且 在 时 间 0 时 调 
度 节 点 MAC5 。 因 为 在 循环 2 中 MAC4 和 MACS 之 间 的 内 部 依赖 限制 及 MACS 的 
起 始 时 间 分 区 是 0， 通 过 使 用 式 (9-13) 将 所 有 节点 MACA 的 调度 时 间 计 算 为 
-1。MAC4 是 一 个 被 包 庄 的 节点 ( Wang 和 Parhi 1994), ， 也 就 是 一 个 在 负 的 
(也 就 是 1) 、 大 于 (也 就 是 :<0) 或 等 于 7 (也 就 是 :>7T) 的 时 间 上 被 调度 的 节 
点 。 非 包 右 的 节点 是 在 时 间 步 长 等 于 时 间 分 区 (也 就 是 0<t1<7-1)。 包 奢 的 节 
点 在 调度 中 在 上 方 标记 +1 或 -1。 调 度 矩 阵 和 最 开始 的 调度 见 表 9-6 MK 9-7, 
在 里 面 Ll 和 12 指 的 是 循环 且 MI, M2 和 M3 是 物理 的 MAC 处 理 器 。 
表 9-6 对 2 阶 IR 滤波 器 的 调度 矩阵 
时 间 Ll L2 
0 MACS 








表 9-7 对 2 阶 IIR 滤波 器 的 最 初 调度 


时 间 MI M2 M3 
0 MACS 
| ar | oe 


0 ”整个 循环 的 节点 可 能 会 在 违反 彼此 迭代 优先 级 限制 之 前 被 转移 ， 而 这 个 转移 
的 次 数 则 由 集合 区 的 每 个 成 员 的 循环 灵活 性 定义 。MARS 通过 下 面 的 等 式 计算 每 
运行 时 间 。 
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F=TxD,-T, (9-14) 

Xt}  EMARS, T, = >; PWOCe) = D eee We) Jt H B, = 
,OW 

循环 1 和 循环 2 的 灵活 性 能 被 定 为 FI =2x1-2=0 且 Ff,=2x2- (2+2- 
1-0) =1。 

R13: 解决 冲突 

为 了 解决 冲突 ，EMARS 的 算法 采用 了 与 MARS 调度 同样 的 原则 (Wang and 
Parhi 1994) 。 在 2 阶 滤波 器 的 例子 中 ， 对 递归 节点 一 个 有 效 的 无 冲突 的 调度 与 表 
9-7 中 所 示 的 最 初 调度 一 样 。 

步骤 2: 无 递归 节点 的 调度 和 资源 分 配 

在 这 个 子 节 中 ， 无 递归 节点 的 调度 和 资源 分 配 的 主要 EMRAS 步骤 都 有 
讲解 。 

步骤 2.1: 计算 处 理 器 的 最 小 数量 

通过 使 用 式 (9-15) 能 计算 出 在 MARS 中 添加 的 处 理 器 的 确切 数量 。 

IUE TS ee 

XP, M 是 无 递归 部 分 的 U 型 运算 的 数量 ，7S$, 是 U 型 处 理 器 中 可 利用 的 时 间 
分 区 的 数量 ，7, 是 U 型 运算 的 运算 时 间 ，P, 是 U 型 处 理 器 的 流水 线 重 数 并 且 了 
是 迭代 周期 。 

fr EMRAS t}, T, 指 的 是 一 个 U 型 运算 所 有 输出 的 最 大 运算 时 间 并 且 P, 是 
一 个 U 型 运算 的 流水 线 的 最 高 重 数 。 对 于 2 阶 IR 滤波 器 ， 添 加 的 MAC 处 理 器 
的 确切 数量 给 出 如 下 : 


(处 理 器 ) mc = [E] = o (9-16) 


对 于 MAC 处 理 器 有 4 个 时 间 分 区 ， 并 且 对 于 无 递归 MAC 节点 需要 3 个 时 间 
分 区 。MARS 决定 了 这 个 滤波 器 不 需要 任何 新 的 处 理 器 ， 因 此 需要 的 MAC 处 理 
器 的 数量 是 3 个 ， 这 在 式 (9-12) 中 给 出 了 。 

步骤 2.2: 定位 前 馈 路 径 

图 9-13 所 示 的 2 Br IR 滤波 器 仅仅 包含 如 图 9- 14 所 示 的 一 个 前 馈 电 路 ， 它 
的 一 端 连接 到 一 个 递归 节点 。 递 归 节 点 MACA 不 包括 在 这 个 前 馈 路 径 中 。 

步骤 2.3: 创建 一 个 最 初 的 计划 表 

继续 研究 图 9-13 所 示 的 2 阶 UR 滤波 器 ,来 自前 馈 路 径 最 初 的 计划 表 见 表 
9-8， 在 这 个 表格 中 ，MI ~ M3 指 的 是 3 个 MAC 处 理 器 。 注 意 到 调度 矩阵 中 没有 
冲突 ， 并 且 它 是 无 递归 节点 最 后 的 无 冲突 调度 。 


(9-15) 
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递归 节点 





步骤 3: 使 用 改进 的 可 折 又 技术 控制 电路 的 实现 
在 给 出 最 后 的 调度 和 处 理 器 数量 后 ，IRIS 能 构建 连接 处 理 器 的 数据 通道 ， 
并 且 使 用 一 个 改进 的 折 秋 转换 技术 产生 控制 电路 。 形 成 TRIS 控制 器 基础 的 改进 
折 释 等 式 的 根源 会 在 本 节 中 得 到 介绍 。 
表 9-8 2 阶 IIR 滤波 器 的 最 后 无 冲突 调度 
MAC 处 理 器 








当 折 县 转化 减 小 架构 中 功能 部 件 的 数量 时 ， 也 许 会 产生 一 个 使 用 大 量 寄存 器 
的 架构 。 一 些 技术 能 被 用 于 最 小 化 寄存 器 数量 (Parhi 1994) ， 但 是 它们 提高 了 
分 布 电路 的 复杂 度 。 在 本 节 中 ， 硬 件 共享 电路 是 针对 Xilinx FPGA 的 。 虽 然 FPCA 
是 一 个 “寄存 器 富有 ”架构 并 且 路 由 电路 的 互 连 时 延 能 上 升 到 与 FPGA 中 总 的 
关键 路 径 的 60% 一 样 多 ， 但 也 并 没有 故意 减少 寄存 器 数量 ， 因 为 通过 重 定时 程 
序 可 以 使 用 这 些 时 延 来 提高 吞吐 量 。 这 些 议 题 在 下 一 节 时 延 的 LMS 滤波 器 的 实 
现 中 有 讲述 (Yi M Woods 2006, Yi 等 2005), 

步骤 3.1: 改进 的 折 又 转换 

如 第 8.6.2 节 所 述 ， 一 个 折 双 集合 是 由 相同 的 功能 部 件 实行 运算 的 一 个 有 序 
RA (Parhi 1999) 。 每 个 折 又 集合 包含 N 个 元 素 ， 它 们 其 中 一 些 也 许 是 无 效 的 
操作 。 在 折 释 集合 中 (在 里 面 7 从 0 到 N-1)， 第 7 个 位 置 的 操作 通过 在 时 间 分 
区 j 期 间 的 功能 部 件 来 执行 。 系统 的 折 番 技术 的 使 用 是 通过 使 用 2 阶 TIR 滤波 器 
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的 例子 来 演示 的 。 以 折 又 因数 N =2 来 折 倒 这 个 滤波 器 ， 它 使 用 的 折 番 集合 为 
SI =MAC5, MAC4, S2 = MAC3, MAC2 以 及 S3 = MAC1。 折 将 集合 S1，S2 及 S3 
仅仅 包含 了 MAC 运算 ， 并且 在 相同 折 秋 集合 中 的 节点 通过 同样 的 MAC 硬件 被 执 
行 。 折 又 因数 N=2 意味 着 折合 硬件 的 迭代 周期 是 2。 

如 果 能 实现 一 个 折 符 的 系统 ， 那 么 D'E(U_。,V) z0 必然 适合 所 有 SFC 中 的 
边缘 。 一 旦 有 效 的 折合 集合 被 分 配 ， 那 重 定时 要 么 能 被 用 于 满足 这 个 性 能 ， 要 么 
用 于 证 明 折 友 集合 不 可 行 。 通 过 使 用 式 (9-17) ， 找 到 了 SFG 每 个 箭头 的 一 组 约 
束 条 件 ， 并 且 为 了 解决 不 等 式 的 系统 ， 使 用 这 项 技术 来 决定 是 否 存 在 一 个 解决 之 
法 并 找到 一 个 解决 之 法 ， 前 提 是 解决 之 法 存在 。 不 等 式 限制 给 出 如 下 : 

r(U) -rV <s mata aa 
N 
AF, [x] 是 小 于 等 于 x 的 最 大 整数 。 

下 面 将 讲述 一 种 方法 ， 通 过 这 种 方法 ,这些 技术 能 被 用 于 设计 折 秋 架构 并 产 
EHEH 2 阶 IR 滤波 器 。 基 本 程序 如 下 : 

1) 执行 折 笃 的 重 定 时 ; 

2) Saree; 

3) 执行 寄存 器 分 配 ; 

4) WTB. 

HAFA (WM sk (8-10)) 和 在 图 9-13a 中 的 SFG B5 Jr BR d ( 见 式 
(9-17)) 的 重 定时 见 表 9-9。 根 据 求解 不 等 式 系统 的 技术 ， 第 一 步 是 画 出 约束 
图 。 考 虑 到 有 N 个 变量 M 组 不 等 式 ， 其 中 每 个 不 等 式 都 有 7; -r mk 的 形式 且 k 
为 整数 ,约束 图 使 用 以 下 程序 画 出 (Parhi 1999) : 

1) ANAREM i; 

2) 为 每 个 不 等 式 7; -r mk, MWR, UKREAK, WA BWA i; 

3) 为 每 个 节点 i, i=1, 2, =, N, MBHPAN+1, MH N14, UR 
度 为 0 从 N+1 到 节点 i 的 箭头 。 

表 9-9 为 合拢 约束 的 合拢 等 式 及 重 定时 


(9-17) 










合拢 等 式 的 重 定时 
D'p(U_e V) =2(1) -0+0+1-0=3 | r(1) -r(2) <1 
D'«(U e V) =2(0) -2+1+1-0=0 | r(1) -r(2) «0 
D'p(U_e V) z2(1) -0+0+0-1=1 r(2) -r(3) <0 
D'p(U e V) =2(0) -2+1+0-0= -2 r(2) -r(3) <s -1 
D'p(U_e V) z2(0) -2+1+1-0=0 r(3) -r(4) «0 

D'p(U_e V) z2(0) -2+1 +0-1= -2 r(4) -r(5) & -1 
D'&(U e V)=2(1)-2+0+0-0=0 r(5) -r(5) «0 

D'p(U_e V) =2(2) -24+0+1-0=3 r(5) -r(4) «1 








1—2(S) 
2—3(P) 






















3—4(S) 
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使 用 最 短路 径 算法 (Parhi 1999) 之 一 能 确定 是 否 存 在 一 个 解决 之 法 并 且 找 
到 它 。 如 果 或 者 仅 当 约束 图 没有 负 循 环 时 ， 不 等 式 的 系统 才 有 一 个 解决 之 法 。 如 
果 解 决 之 法 存在 ， 那 么 它 是 使 得 从 N+1 到 节点 i 的 最 小 距离 7; 的 方法 。 在 表 9-9 
的 右 列 中 ， 不 等 式 的 约束 图 如 图 9-15 所 示 。 即 便 有 这 一 系列 的 约束 ,但 也 是 能 
够 求解 的 ， 因 为 如 果 没 有 负 循 环 存在 ， 则 这 个 解 是 r(1) = -2，r(2) = -2, 
0 

重 定时 的 SFG 如 图 9-16 所 示 。 重 定时 的 SFC Wp LR I-10, HB 
SFG 如 图 9-17 所 示 。 

由 于 将 DSP 算法 映射 到 时 分 复 用 架构 ， 因 此 在 本 节 介 绍 了 改进 的 折 秋 转换 。 
新 的 折合 等 式 对 分 层 的 和 平坦 的 电路 都 合适 。 对 平坦 电路 而 言 ，4, 将 等 于 0， 而 
折 友 的 等 式 则 是 最 原始 的 那个 等 式 。 





MACI MAC2 MAC3 MAC4 MACS 


图 9-16 重 定 时 的 2 阶 IIR 滤波 器 。 摘 自 Hierarchical Synthesis of Complex DSP Functions 
Using IRIS by Y. Yi & R. Woods, IEEE Trans on Computer Aided Design, Vol.25, No.5, © 2006 
IEEE 


表 9-10 图 9-16 中 重 定时 SFG HARSH 





边缘 合拢 等 式 
1—2(P) D'£(U «, V) =2(1) -0+0+1-0=3 
1—2(S) D',(U «, V) z2(0) -2+1+1-0=0 
2—3(P) D'p(U_e V) z2(2) -0+0+0-1 =3 
2-45) FF D'p(U_e V) =2(1) -2+2+0-1=0 
3—4(S) D',(U e V) z2(0) -2+1+1-0=0 
4—5(S) D'g(U «, V) z2(1) -2+1+0-1=0 
5—5(S) D'p(U_e V) =2(1) -2+0+0-0=0 


5—4(P) D'p(U e V) z2(1) -2+0+1-0=1 
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(E) 
边缘 合拢 等 式 
ag—1(Q) D',(U_e,V) 22(0) -0+0+0-0=0 
a,—2(Q) D'p(U_e V) =2(0) -0+0+1-0=1 
a,—3(Q) D'p(U_e V) 22(1) -0+0+0-0=2 
b,—4(Q) D'p(U e V) 22(1) -0+0+1-0=3 
b,—5(0) D'p(U_e V) =2(2) -0+0+0-0=4 





图 9-17 合拢 的 2 阶 UR 滤波 器 。 摘 自 Hierarchical Synthesis of Complex DSP Functions 
Using IRIS by Y. Yi & R. Woods, IEEE Trans on Computer Aided Design, Vol. 25, No.5, © 
2006 IEEE 


9.6 实例 研究 : 自 适应 时 延 最 小 均 方 的 实现 


自 适应 滤波 器 已 经 有 许多 应 用 ， 不 过 这 些 应 用 都 需要 不 同 的 滤波 器 特性 来 响 
应 变化 的 信号 状态 ， 比 如 在 噪声 消除 、 线 性 预测 、 自 适应 信号 加 强 和 自 适应 控制 
的 应 用 中 都 有 使 用 。 在 实践 中 ，LMS 算法 在 实践 中 是 使 用 最 广泛 的 自 适应 滤波 
算法 (Farhang- Boroujeny 1998) , LMS 算法 的 宽频 应 用 是 对 于 信号 统计 来 说 ， 它 
比较 简单 而 且 稳健 。TF- DLMS 算法 由 以 下 等 式 描述 。 


N-1 
xn = 2 Oni sa = Wn 0% 十 On-1,1Xn-l + 77 + On-(N-1) ,N-1Xn-(N-1) 
(9-18) 
误差 : 
e(n-m) =d(n-m) -y(n-m) (9-19) 
时 延 的 系数 更 新 : 


Ori On- ii tN ma (9-20) 
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一 个 8 抽 头 的 TF - DLMS 架构 如 图 9-18 所 示 。 使 用 DLMS 算法 ,能 在 适应 
环 路 之 前 将 寄存 器 岁入 到 失真 反馈 路 径 中 。 现 在 主要 的 困难 是 将 这 些 时 延 用 作 将 
LMS 滤波 絮 流 水 线 化 的 一 种 方法 。 这 个 过 程 首先 涉及 时 延 数量 的 确定 ， 这 些 时 
延 是 对 实现 一 个 彻底 的 流水 线 类 型 电路 很 必要 的 。 这 个 数量 值 很 重要 ， 太 小 的 值 
会 产生 一 个 低速 电路 ， 同 时 太 大 的 值 会 产生 一 个 更 低 的 收敛 速率 并 导致 跟踪 能 力 
较 差 。IRIS 根据 电路 性 能 要 求 ( 速度 和 面积 ) 确定 了 未 知 的 时 延 数 量 ( 比如 
mD), 一 旦 确定 ， 就 能 开发 一 个 彻底 的 流水 线 实现 。 


x(n) Pe ME E Jo. m m TEMA. ML 1 PMO ze 


Mi, RES amr, mut, mur, mat, mur, mas, eee 


pe d 3] le let 
to GANA IAR y 


e(n-mD) 










滤波 器 前 
馈 路 径 (EFP) 
图 9-18 一 个 8 抽 头 TF - DLMS 算法 架构 


9.6.1 高 速 实现 


TF -LMS 自 适 应 滤波 器 (Jones 1992) 有 着 与 DLMS 滤波 器 相似 的 收敛 行 
为 。 一 个 有 着 mD 时 延 的 8 抽 头 预测 器 系统 如 图 9-18 所 示 。 时 延 的 数量 已 经 定 
义 为 mD， 因 为 这 个 值 会 通过 还 没有 被 确定 的 流水 线 站 (mD) 确定 下 来 。 这 强 
调 了 在 电路 架构 层 的 选择 是 怎样 影响 算法 设计 的 。 

在 EEP 数据 通道 中 m 时 延 的 8 抽 头 TF -DLMS 的 分 层 SFG 如 图 9-19 所 示 。 
它 显示 了 DLMS 滤波 器 是 根据 一 个 加 法 器 和 8 个 抽 头 单元 来 构建 的 。 在 这 些 抽 头 
单元 中 ， 一 个 MAC 和 几 个 MACu (一 个 MAC 和 一 个 放 缩 电路 几 一 起 ) 运算 合并 
起 来 实现 乘法 器 和 累加 功能 。 

一 个 电路 算法 的 表达 式 是 一 个 三 层 的 分 层 电路 。 被 选 作 这 个 设计 例子 的 处 理 
器 类 型 包括 了 流水 线 式 的 专用 乘法 和 加 法 处 理 器 。 通 过 使 用 定点 运算 能 实现 
DLMS 滤波 器 ， 并 且 考 虑 了 所 有 的 定点 实现 问题 ( Ting 等 2000) 。 这 个 分 析 包 括 
为 了 根据 自 适 应 滤波 器 性 能 及 实现 的 成 本 来 实现 最 佳 的 字 长 的 研究 ， 截 断 / 凑 整 
电路 的 应 用 ， 饱 和 度 的 使 用 和 简单 乘法 移 位 运算 的 开发 (Ting 等 2000) 。 

当 针 对 的 是 一 个 FPGA 的 实现 时 ， 我 们 假定 给 出 的 规范 需要 一 个 高 速 的 电 
路 ， 那 么 乘法 器 和 加 法 器 会 被 流水 线 化 。 在 这 个 设计 中 ，MAC 和 MACk 子 系统 
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Al 


图 9-19 HÆK 2 阶 IIR 滤波 器 。 摘 自 Hierarchical Synthesis of Complex DSP Functions 
Using IRIS by Y. Yi & R. Woods, IEEE Trans on Computer Aided Design, Vol.25, No.5, 
© 2006 IEEE 


中 的 乘法 器 运算 是 基于 一 个 被 化 为 一 重 流水 线 的 专用 8 位 符号 乘法 器 。 对 加 法 处 
理 器 的 电路 是 基于 分 别 在 MAC 和 MACk 子 系统 中 的 8 位 和 16 位 字 的 加 法 ， 并 且 
通过 使 用 一 个 被 一 重 流水 线 化 的 5 位 快速 进位 加 法 器 ， 这 是 能 够 实现 的 。 在 
RDLMS 设计 中 使 用 的 步 长 是 2-” (0.03125), ， 通 过 使 用 Matlab™ 仿 真 ， 这 是 最 
接近 最 佳 步 长 的 2 RERO 

将 乘法 器 和 加 法 器 的 时 延 改 变 为 一 个 时 延 会 产生 如 图 9-20 的 电路 架构 。 在 
IRIS SignalCompiler 读 取 了 8 抽 头 的 TF - DLMS 自 适应 滤波 器 的 模型 文件 后 ， 产 
生 了 基本 参数 化 的 处 理 器 模型 的 图 解 表 达 式 ， 这 个 表达 式 显示 出 了 包含 在 IRIS 
处 理 器 库 中 的 信息 ， 如 图 9-20 所 示 。 所 有 输入 和 输出 数据 时 序 格式 及 用 于 这 个 
设计 中 的 基本 Xilinx 处 理 器 模块 的 输入 时 延 见 表 9-11 和 表 9-12。 需 要 提供 图 
9-21 中 节点 的 参数 值 来 计算 滤波 器 设计 的 具体 时 延 值 和 数据 时 序 模型 。 在 这 个 例 
子 中 ， 通 过 使 用 9. 4 节 中 描述 的 IRIS 工具 能 够 实现 分 层 设计 的 自动 综合 过 程 。 





a) b) 


Al 9-20 乘法 器 和 加 法 器 模型 。 摘 自 Hierarchical Synthesis of Complex DSP Functions 
Using IRIS by Y. Yi & R. Woods, IEEE Trans on Computer Aided Design, Vol.25, No.5, © 
2006 IEEE 

a) 乘法 器 b) 加 法 器 
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表 9-11 乘法 器 的 数据 时 间 格 式 和 时 延 (S-A*B) 















数据 时 间 格 式 


[0, 0, 0, 0, 0, 0, 0, 0] 


[0, 0, 0, 0, 0, 0, 0, 0] 





数据 时 间 格 式 











[0, 0, 0, 0, 0, 0, 0, 0] (8 fiz) 
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] (16 fiz) 








[0, 0, 0, 0, 0, 0, 0, 0] (8 fiz) 
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] (16 fiz) 


» 1, 1,1] (842) 


okie dvds, bs tat dea 


由 于 在 MAC 和 MACu 的 子 系 统 中 没有 了 反馈 环 ， 因 此 流水 线 周 期 就 变 成 了 
1。 通 过 使 用 第 9. 4 节 中 描述 的 重 定时 技术 ，IRIS 能 自动 综合 MAC fil MACu TA 
统 ， 并 且 通 过 使 用 这 种 方法 ， 将 截断 问题 也 纳入 了 考虑 。MAC 和 MACh 子 系统 
的 原始 电路 、 综 合 电路 和 MDP 模型 分 别 如 图 9-21a 和 图 9-21b 所 示 。 所 有 的 输 
人 和 输出 数据 时 序 格式 和 输出 时 延 见 表 9-13 和 表 9-14。 相 关 的 输入 向 量 见 表 
9-15, 
表 9-13 MAC 子 系统 的 数据 时 间 格 式 和 时 延 


并 


行 0, 0, 0, 0] 













时 延 











0, 0, 0, 0] 
20: 9.3] 





F ABE MAC 和 MACk 产生 的 MDP 模型 用 在 了 高 级 子 系统 的 综合 中 。 高 级 子 
系统 是 一 个 TAP 子 系统 且 它 的 流水 线 周 期 为 1。 
TAP 子 系统 的 原始 电路 、 综 合 电路 和 MDP 模型 如 图 9-21c 所 示 。TAP 的 所 
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有 输入 和 输出 的 数据 时 序 格式 和 输出 时 延 见 表 9-16。 子 系统 TAP 的 相关 输入 向 
量 见 表 9-15。 包 括 函 数 时 延 的 TAP 子 系统 的 数据 通道 时 延 见 表 9-17。 


a2 
P; P, Fi P; [0] A a 





LO | 
号 
S. $ s € [1] 5 1 | 






Qi — — [0] 2 






0-2 
02- 
[01.5 





图 9-21 TF - DLMS 滤波 器 中 的 子 系 统 模型 。 摘 自 Hierarchical Synthesis of Complex 
DSP Functions Using IRIS by Y. Yi & R. Woods, IEEE Trans on Computer Aided Design, 


Vol. 25, No.5, © 2006 IEEE 
a) MAC 子 系统 的 MDP 模型 的 创建 b) MAC jy 子 系统 的 MDP 模型 的 创建 
c) TAP 子 系统 的 MDP 模型 的 创建 


表 9-14 MAC 的 数据 时 间 格 式 和 延 时 


[0, 0, 0, 0, 0, 0, 0, 0] 
[0, 0, 0, 0, 0, 0, 0, 0] 


(de 5; 1:15 T1, 45 de As, 15 T; 3554, I DJ 
[0, 0, 0, 0, 0, 0, 0, 0] 
[0, 0, 0, 0, 0, 0, 0, 0] 
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表 9-15 MAC, MAC 和 TAP 的 相关 输入 向 量 




















表 9-16 TAP 的 数据 时 间 格 式 和 延 时 



































数据 时 间 格 式 
端口 号 时 延 
类 型 值 

X 并 行 Et Stet ds ee 1.2] 
Xy 并 行 、 0.0, 0, 0, 0; 10,0, 07 
e M8 
7 并 行 
a T 
7 w o 
: n 0 
Yo 并 行 3 


表 9-17 TAP 子 系统 的 数据 通道 延 时 对 














通过 使 用 TAP 子 系 统 和 加 法 器 处 理 器 的 MDP 模型 ， 综合 了 高 级 的 8 抽 头 
TF - DLMS 电路 。 插 入 到 TF - DLMS 电路 的 失真 反馈 (mD) 中 的 流水 线 数量 需 
要 确定 下 来 。 如 下 所 示 的 高 级 8 抽 头 TF - DLMS 架构 中 识别 出 了 8 个 环 路 。 通 过 
使 用 式 (9-16) ， 能 够 计算 出 相应 的 流水 线 周 期 。 确 定 了 1 ~8 的 流水 线 周期 并 
且 使 之 等 于 1， 都 是 为 了 产生 一 个 高 速 架 构 。 这 些 环 的 最 佳 值 为 : ms = -3D， 
m,=—-2D, mg; = -1D, ms=0D, m, -1D, m, =2D, m, =3D, m, =4D, Mix 
些 等 式 中 ， 能 够 看 到 通过 最 慢 的 循环 确定 出 整个 架构 的 时 延 数量 的 最 佳 值 m 等 
于 4D。 通 过 使 用 IRIS, 8 抽 头 预测 滤波 器 的 综合 电路 如 图 9-22 所 示 , 其 中 综合 
的 抽 头 架构 如 图 9-210 所 示 。 

循环 1: TAP8 (y,) 一 mD 一 Al 一 TAP8 (e;) 
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4+1-0-0 
m+l 
循环 2: TAP7 (y,) 一 TAP8 (y,) 一 mD 一 Al1 一 TAP8 (e,) —TAP7 (e;) 
人 ee 
2 1+1 +m+2 
循环 3: TAP6 (y,) 一 TAP7 (y,) 一 TAP8 (y,) 一 mD 一 Al 一 TAP8 (e,) 
—TAP7 (e,) T—AP6 (e;) 
[人 
m 1+1+1l+m+4 


a, =| | =1=m =4D 


|=1=m =3D 





|=1=m =2D 


循环 8: TAP] (y,) 一 TAP2 (y,) —TAP3 (y,) 一 AP4 (y,) —TAPS 

(ye) 一 TAP6 (y,) 一 TAP7 (y,) 一 TAP8 (y,) 一 mD 一 Al 一 TAP8 (e) 一 

TAP7 (e,) T—TAP6 (e,) —TAPS (e,) —TAP4 (e,) TOTAP3 (e,) —TAP2 - 
(e,) —TAPI (e) 

4x8+1+0x7-0-0x6 

as =| 1 x8 +m+14 


m = max (allm.) =4D 


| =1=m = -3D 





2D} 
[TAPI tot TAP2 rt TAP3 Ll TAPA = TAPS = TAP6 = TAP7 = TAPS eo 
E xcu i-i Li 4 nsn dn ist 


ia 


图 9-22 综合 的 TF - RDLMS 滤波 器 。 摘 自 Hierarchical Synthesis of Complex DSP Func- 
tions Using IRIS by Y. Yi & R. Woods, IEEE Trans on Computer Aided Design, Vol. 25, No.5, 
© 2006 IEEE 

通过 使 用 如 图 9-23 所 示 的 TAP 处 理 器 模块 结构 ， 能 构建 出 TF - RDLMS N 

抽 头 滤波 器 。 在 这 个 TAP 结构 中 ， 会 局 部 更 新 滤波 器 权重 ， 因 此 如 果 需 要 ， 则 
可 以 通过 添加 更 多 的 TAP 元 件 ， 使 序数 随 之 增加 。 滤 波 器 也 有 着 优势 ， 那 就 是 
增加 滤波 器 的 序数 不 会 增加 关键 路 径 。 被 用 于 更 新 滤波 器 系数 并 影响 滤波 器 性 能 
的 误差 信号 e(n) 的 时 延 被 增加 了 4N 个 而 不 是 如 提供 性 能 优势 的 TF -FPDLMS 结 
构 中 的 3N 个。 


9.6.2 按 具 体 性 能 要 求 的 硬件 共享 设计 


由 于 Xilinx FPGA Virtex - 卫 技 术 的 优势 ， 专 用 加 法 器 和 乘法 器 的 速度 已 经 提 
升 到 了 180MSPS。 在 大 量 应 用 中 ,采样 速率 能 远 超 预期 ， 因 此 硬件 共享 是 值得 开 
发 的 。 为 了 实现 硬件 共享 ， 可 以 使 用 EMARS 调度 算法 和 改进 的 折 双 技术。 在 这 
HB, 通过 使 用 IRIS 调度 功能 ， 能 产生 S 抽 头 TF - DLMS 滤波 器 的 硬件 共享 电路 。 
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图 9-23 ”被 调换 的 细 粒 重 定时 DLMS 滤波 器 
a) TAP 模 型 b) N ffr TF - RDLMS 滤波 器 


硬件 共享 因数 (Hardware Sharing Factor, HSF) 定义 为 时 钟 速 率 和 采样 速率 的 
比率 ; 
时 钟 速率 
HSF “采样 速率 
它 也 等 于 流水 线 周 期 。 假 定 电路 采样 速率 是 80MHz， 那 么 HSF 就 是 2， 因 为 
[180/80] =2。 
因为 MAC 和 MAC 的 子 系统 不 包括 反馈 环 和 时 延 ， 因 此 流水 线 周 期 为 2 的 综 
合 电 路 和 MDP 模型 与 图 9-21a 和 9-21b 所 示 的 流水 线 周期 为 1 的 电路 一 样 。TAP 
子 系统 的 综合 电路 及 相应 的 流水 线 周期 为 2 的 IRISMDP 模型 如 图 9-24 所 示 。 所 
有 的 输入 和 输出 数据 时 序 格式 及 流水 线 周 期 为 2 的 TAP 输出 时 延 见 表 9-18。 
TAP 子 系 统 的 相关 输入 向 量 与 表 9-15 中 的 TF - DLMS 滤波 器 相同 。 拥 有 共享 电 
路 的 TAP 子 系统 的 数据 通道 时 延 见 表 9-19。 
通过 使 用 TAP 子 系统 MDP 模型 和 加 法 处 理 器 ， 能 够 综合 高 级 8 抽 头 的 TF - 
DLMS 电路 。 在 误差 反馈 (mD) 中 需要 确定 插入 的 流水 线 数 量 。 图 9-19 的 TF - 
DLMS 电路 使 用 了 同样 的 方法 来 确定 最 优化 值 m。 -在 这 种 情况 下 ， 最 优化 值 m 是 
2， 因 为 流水 线 周 期 是 2。 对 于 TF - DLMS， 最 后 的 无 冲突 调度 矩阵 见 表 9-20。 
注意 到 迭代 周期 在 这 个 矩阵 中 是 等 于 流水 线 周期 的 。 但 是 ， 因 为 严格 的 优先 级 约 
束 ， 所 以 分 配 了 一 个 新 的 处 理 器 。 在 这 个 例子 中 ， 最 后 的 硬件 表示 符 的 数量 确切 
地 等 于 4 个 TAP XE (TI ~T4) 和 一 个 加 法 表示 符 (Al) ， 见 表 9-20。 
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综合 的 抽 头 子 系统 和 MDP 模型 (a =2) 
表 9-18 TAP 的 数据 时 间 格 式 和 时 延 


数据 时 间 格 式 
端口 名 时 延 
| | 
Xi 并 行 [0, 0, 0, 0, 0, 0, 0, 0] 
Xii 并 行 [0, 0, 0, 0, 0, 0, 0, 0] 
ei 并 行 [0, 0, 0, 0, 0, 0, 0, 0] 


Yi IFAT (1, 1, 1, 1, 1, 1, 1, 1] 


fi [0, 0, 0, 0, 0, 0, 0, 0] 
e, 并 行 [0, 0, 0, 0, 0, 0, 0, 0] 
fi EAE $0949. ie 79] 











t|ojo|o 


表 9-19 TAP 子 系统 的 数据 通道 时 延 对 











表 9-20 一 个 硬件 共享 的 TF - DLMS 滤波 器 的 调度 矩阵 








通过 使 用 IRIS 调度 功能 ， 流 水 线 周 期 为 2 的 TF - DLMS 的 硬件 共享 电路 如 
9-25 所 示 。 











图 9-25 如同 由 流水 线 周期 为 2 的 IRIS 生成 图 9-5 的 TF - DLMS 滤波 器 的 最 后 硬件 架构 


9.7 总 结 


本 章 描 述 了 产生 一 个 基于 SFG 的 综合 工具 IRIS 的 工作 ,许多 技术 自动 化 的 
IRIS 已 经 在 第 8 章 中 提 到 。 此 外 ， 本 章 说 明了 设计 的 分 层 性 在 提 到 过 的 技术 上 因 
何 存在 相当 大 的 设计 限制 。 在 本 章 中 ， 有 两 个 例子 ， 也 就 是 2 Br IR 滤波 器 和 5 
Bt WDE 滤波 器 已 经 用 于 克服 这 个 困难 。 这 使 得 我 们 对 这 个 最 初 进行 FPGA 实现 
时 便 会 遇 到 的 困难 有 了 清晰 的 认识 。 第 12 章 将 详细 讲解 一 些 额外 的 方面 ， 以 有 
用 的 IP 核 方式 实现 这 个 功能 便 需 要 这 些 方面 。 
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第 10 章 FPGA 的 复杂 DSP 核 的 设计 


现 阶段 的 硅 芯 片 技术 可 以 使 数 以 百 万 计 的 逻辑 门 集成 在 Lem? 的 硅 上 ， 预 计 
到 2015 年 每 em? 的 芯片 将 会 容纳 超过 两 百 万 的 晶体 管 。 现 在 可 实现 非常 复杂 的 
功能 ， 将 以 前 作为 一 个 个 体 的 芯片 建成 一 个 完整 的 SoC。 将 一 个 应 用 的 所 有 部 分 
整合 在 同一 块 芯 片上 呈现 出 了 更 低 功 耗 、 更 高 可 靠 性 和 降低 成 本 的 优点 。 由 此 一 
ok, 与日俱增 的 压力 迫使 设计 师 面 对 不 断 缩 短 的， 以 月 计算 而 不 是 以 年 计算 的 上 
市 时 间 期 限 。 用 户 市 场 的 重点 就 是 在 一 个 短小 的 生命 周期 及 更 短 的 上 市 时 间 之 内 
销售 大 量 的 廉价 产品 。 尤 其 是 当 一 个 新 的 标准 出 现时 ， 例 如 驱动 了 高 清 电视 和 移 
动 视 频 发 展 的 H. 264 和 MPEC4。 

不 断 增 大 的 芯片 容量 使 一 些 设 备 实 现 了 FPGA 功能 的 扩展 ， 例 如 Xilinx 的 
Virtex V 和 Altera 公司 的 Stratix III 就 提供 了 全 部 SoC 功能 。 这 些 大 量 可 用 的 逻辑 
门 带 来 了 在 这 些 设 备 上 实现 开发 更 加 复杂 系统 的 问题 。 随 着 集成 电路 的 发 展 ， 以 
及 设计 复杂 性 的 提升 ， 在 每 个 芯片 上 可 用 逻辑 门 数 量 的 增长 率 及 每 个 芯片 上 逻辑 
门 数量 的 差异 实际 上 在 被 人 为 地 扩大 。 正 如 第 1 章 中 指出 的 ， 这 通常 被 称 为 设计 
生产 率 差 距 (IRTS 1999), ， 强 调 了 在 设计 产业 中 不 断 地 改进 就 不 会 被 闭合 的 一 个 
分 歧 。 然 而 ， 完 整 转变 设计 与 实施 有 数 百 万 逻辑 门 芯片 的 方法 论 的 需要 ， 将 使 设 
计 师 集中 在 更 高 抽象 层次 的 设计 。 

随 着 芯片 容量 的 增 大 ， 设 计 复杂 性 增加 的 速度 更 快 ， 因 为 现在 完整 的 系统 设 
计 由 更 多 方面 组 成 ， 并 且 可 以 和 一 系列 的 技术 学 科 结 合 起 来 。 更 多 的 工作 在 系统 
层面 上 ， 使 设计 师 更 加 积极 地 参与 集成 关键 组 件 而 无 暇 深入 销 研 设计 的 功能 性 。 
现 有 的 设计 和 验证 方法 进展 不 同步 ， 导 致 了 设计 生产 力 和 硅 制 造 能 力 之 间 日 益 增 
大 的 差距 。 

在 目前 的 电子 设计 中 ， 测 试 和 验证 已 成 为 备 受 关注 的 主要 方面 。 随 着 芯片 复 
杂 性 的 难度 成 倍 地 增长 ， 复 杂 系 统 的 验证 现 已 成 为 系统 级 设计 的 瓶颈 。 设 计 团 队 
常常 会 花 多 达 90% 的 开发 工作 量 在 难点 或 系统 级 验证 上 。 很 多 研究 中 的 对 策 是 
想 开发 系统 来 加 速 芯 片 的 测试 和 验证 ， 特 别 是 解决 在 从 第 三 方 集成 测试 设计 组 件 
增加 的 困难 。 时 间 和 金钱 方面 的 顾虑 则 更 加 危 如 累 卵 。 罗 恩 (2002) 很 好 地 总 
结 了 该 行业 的 共识 : 

“分 析 师 普遍 认为 在 新 产品 开发 项 目 过 程 中 ， 更 早 、 更 快 的 硬件 和 软件 的 验 
证 是 降低 风险 的 关键 。 

本 章 将 涉及 可 重复 使 用 的 设计 过 程 的 演变 ， 重 点 是 基于 FPGA 的 IP 核 的 生 
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成 。 同 时 针对 如 何 重复 使 用 IP 核 开发 集成 问题 进行 了 讨论 。 首 先 ，10. 1 节 列 出 
可 重用 设计 的 动机 并 给 一 些 重用 目标 ; 10. 2 节 将 概述 IP 核 的 发 展 ; 10.3 节 将 强 
调 如 何 从 简单 的 算术 库 转 变 为 复杂 的 系统 组 件 ; 10. 4 节 将 描述 如 何 设 定 IP 核 参 
数 ， 并 使 用 FIR 滤波 器 演示 一 些 关键 阶段 ，10. 5 节 是 整合 过 程 ; 10.6 节 将 描述 
ADPCM IP 核 的 案例 研究 ; 10.7 节 将 简要 说 明 第 三 方 FPGA IP 供应 商 ; 10.8 节 
是 一 些 结论 。 


10.1 可 重用 设计 的 动机 


提升 设计 和 验证 方法 的 迫切 需要 ， 将 加 快 目 前 的 设计 过 程 ， 并 使 设计 生产 率 
的 差距 缩小 。 由 于 可 用 晶体 管 的 数量 在 每 一 个 技术 周期 都 会 翻 倍 ， 因 此 当前 目标 
应 该 是 以 同样 的 速度 提高 设计 效率 。 若 达到 这 样 的 成 就 ， 则 需要 花费 很 多 精力 在 
研究 设计 、 测 试 和 经 常 被 忽视 的 验证 过 程 的 机 制 。 这 预示 着 可 重用 设计 是 提高 生 
产 力 ， 特 别 是 帮助 系统 级 设计 的 关键 驱动 因素 之 一 。 

除了 成 倍增 加 的 晶体 管 数量 ， 系 统 本 身 也 变 得 越 来 越 复 杂 ， 这 是 由 于 完整 的 
系统 在 单一 的 设备 上 相 结合 ， 组 件 的 异 质 性 带 来 一 系列 的 芯片 设计 问题 ， 尤 其 是 
测试 和 验证 问题 。 涉 及 全 系统 的 设计 意味 着 开发 人 员 需 要 知道 如 何 结合 各 种 不 同 
的 组 件 建立 一 个 完整 的 系统 级 设计 。 开 发 过 程 过 于 复杂 影响 到 了 设计 效率 ， 并 造 
成 了 日 益 苛刻 的 上 市 时 间 期 限 。 获 得 设计 的 平衡 是 一 个 多 维 难题 ， 如 性 能 、 电 源 
管理 和 可 制造 性 ， 再 加 上 上 市 时 间 和 生产 力 ， 随 着 每 项 技术 进步 ， 其 难度 也 在 
加 大 。 

从 最 初 的 设计 ， 到 最 终 的 功能 测试 和 验证 的 整个 项 目 开 发 过 程 中 ， 采 用 可 重 
用 设计 的 策略 能 够 提高 设计 生产 率 。 通 过 提高 抽象 层次 ， 设 计 团队 可 以 用 分 层 设 
计 的 方法 专注 于 系统 级 设计 的 关键 部 件 。 这 种 方法 需要 全 套 的 建 模 、 仿 真 ， 以 及 
组 件 和 更 高 级 模块 的 测试 和 验证 。 此 验证 需要 一 个 能 进行 代码 重用 和 功能 测试 覆 
盖 的 正式 策略 (Huang 2001, Moretti 2001, Varma 和 Bhatia 1998 ) 。 

为 了 提高 整体 生产 力 并 与 每 一 代 技 术 保 持 同 步 ， 一 个 系统 的 重用 设计 的 数量 
必须 以 同样 的 速度 增加 ， 抽 象 层次 也 必须 提高 。 采 用 高 级 功能 模块 的 重用 策略 的 
生产 力 收 益 预 计 将 超过 200% (半导体 行业 协 ”2005 ) 。 可 重用 的 组 件 需要 预先 
有 自己 独立 的 、 可 以 纳入 到 更 高 级 别 测 试 环 境 的 测试 工具 。 这 可 以 从 旧式 设计 或 
第 三 方 供应 商 纳 入 IP 核 来 实现 。 对 这 种 核 的 需要 推动 了 IP 核 市 场 的 成 长 ， 更 大 
比例 的 芯片 元 件 来 自 于 下 核 。 

在 国际 半导体 技术 发 展 路 线 图 2005 报告 (半导体 行业 协会 2005) 中 ， 可 重 
复 使 用 的 逻辑 模块 的 比例 目前 是 36% (2008)， 这 个 数字 到 2015 年 预计 将 稳步 
增加 到 48% ， 并 在 超越 这 个 时 限 后 以 类 似 的 方式 继续 增加 。ITRS 曾 发 表 一 份 更 
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新 到 2005 年 的 路 线 图 ， 给 出 了 市 场 主导 的 驱动 力 (半导体 行业 协会 2006 ) 。 
表 10-1 列 出 了 一 些 需 要 重用 数据 的 摘要 。 
表 10-1 SOC 设计 生产 力 趋势 
















提高 设计 效率 的 另 一 个 重要 方面 是 构成 与 嵌 和 人 式 软件 原则 相同 的 设计 ， 从 而 
可 以 集成 到 系统 级 设计 的 函数 库 。 


10.2 下 核 


提高 生产 率 最 有 利 的 解决 方案 之 一 ， 是 使 用 预先 设计 好 的 被 称 为 硅 IP 核 的 
功能 模块 ， 它 也 常 被 称 为 虚拟 电路 (Virtual Circuit, VC), IP 核 的 术语 适用 于 各 
种 应 用 ， 从 专用 电路 布局 设计 到 针对 可 编程 DSP 或 RISC 处 理 器 的 高 效 代码 ， 或 
以 HDL 捕获 的 核心 描述 。 在 ASIC 和 FPGA 应 用 的 领域 内 ， 卫 内核 常 常 被 划分 为 
三 类 ， 即 硬 卫 ; [5] IP 和 软 IP. 

硬 耳 是 指 表示 为 掩 码 布局 的 设计 ; 固 IP 是 指 特定 技术 的 合成 网 表 ; HIP I 
指 具 有 可 扩展 性 和 内 置 参数 的 HDL 版 本 的 核 。 后 者 的 术语 演变 为 “可 参数 化 
IP”。 它 们 可 以 进行 设计 ， 因 而 可 以 与 硬件 合成 为 一 系列 的 规格 和 工艺 。 用 于 
DSP 应 用 的 参数 ， 如 滤波 器 抽 头 大 小 、 变 换 字 长 点 的 大 小 (Erdogan 等 ”2003， 
Guo 4 2004, Hunter 1999, McCanny “ 1996) 可 以 制 成 为 一 个 可 编程 功能 。 
参数 控制 这 些 特征 的 合成 过 程 中 会 被 送 和 编码， 从 而 得 到 该 应 用 程序 所 需 的 硬 
件 。 每 个 类 型 的 IP 核 都 有 优点 和 缺点 ， 如 图 10-1 所 示 。 

这 些 类 型 的 参数 化 软 IP 内 核 允许 最 大 的 灵活 性 ， 并 提供 复 用 的 最 佳 水 平 ， 
但 在 测试 和 验证 方面 会 产生 主要 成 本 ， 因 为 它们 在 每 一 个 模式 都 需要 测试 。 此 
外 ， 有 一 种 推测 认为 ， 内 核 将 在 不 同 的 FPGA 技术 下 工作 得 最 好 ， 或 者 在 当前 的 
FPGA 技术 下 改变 参数 ， 会 使 性 能 呈 线 性 增长 。 这 些 问题 会 降低 设计 的 可 靠 性 。 
专用 的 功能 可 以 预见 的 硬 耳 核 ， 例 如 Xilinx FPGA 的 PowerPC， 就 不 会 出 现 这 些 
问题 。 然 而 ， 这 里 的 主要 限制 是 ， 这 个 平台 不 适合 DSP 应 用 程序 ， 由 FPCA 提供 
的 并 发 性 是 把 选择 FPGA 平台 放 在 首位 的 主要 原因 。 因 此 ， 灵 活性 受到 了 基础 专 
用 硬件 平台 的 极 大 限制 。 

虽然 固 IP 和 硬 耻 设备 的 设计 是 固定 的 ， 但 它们 仍然 具有 一 定 的 灵活 性 。 在 
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图 10-1 IP RA 


这 些 情况 下 ， 定义 核 心 的 IP 参数 被 称 为 静态 IP (Junchao 等 ”2001) ， 借 此 最 终 
设计 的 寄存 器 内 部 可 以 设置 为 允许 内 部 电路 的 复 用 ， 以 便 重新 配置 设计 功能 。 重 
构 已 经 成 为 FPGA 的 热点 课题 ， 尤 其 是 它们 正 处 于 性 能 提高 期 (Alaraje 和 De- 
Groat 2005, Sekanina 2003 ) 。 与 之 相对 的 ， 软 IP 内 核 的 IP 参数 被 称 为 动态 IPS 
数 。 他 们 往往 是 局 部 或 全 局 参数 ， 如 数据 宽度 、 存 储 容量 和 时 序 延 迟 。 控 制 电路 
也 可 以 被 参数 化 ， 使 设计 具有 可 扩展 性 。 参 数 也 可 以 被 设置 为 允许 相同 的 主 代 
码 ， 在 从 ASIC 库 到 不 同 FPGA 应 用 的 各 种 目标 技术 中 实现 优化 。 

许多 公司 提供 卫 产品 是 基于 DSP 解决 方案 的 ， 即 把 IP RERA S DSP 处 理 
器 。 这 提供 了 充分 的 灵活 性 ， 但 在 分 区 、 功 率 和 速度 上 的 性 能 被 明显 削弱 。TI 
公司 和 ARM 是 非常 成 功 的 由 公司 同时 提供 的 芯片 组 和 支持 戏 入 式 组 件 库 的 两 个 
例子 。 以 类 似 的 方式 提供 固 IP 核 和 软 IP 核 的 公司 已 大 量 建立 。 这 使 FPGA 公司 
不 仅 出 售 实现 用 户 设 计 的 芯片 ， 也 提供 创建 这 些 设 计 的 基本 建设 模块 。 这 种 可 变 
函数 库 的 可 用 性 和 FPGA 的 空白 区 ， 为 即使 是 最 小 的 设计 团队 带 也 来 了 巨大 的 力 
量 。 他 们 不 再 需要 依赖 特定 领域 内 的 专家 ， 这 使 他 们 专注 于 整体 设计 ， 同 时 可 确 
信 FPGA 供应 商 提 供 的 核心 已 通过 先前 公司 的 使 用 测试 。 

这 里 列 出 一 些 当前 的 IP 供应 商 (Davis 2006) 如 下 : 

4i2i 通信 有 限 公 司 ;: FPGA 和 ASIC PAY Verilog 和 VHDL IP 核 。 专 业 视 频 编 
人 码 技术 和 DSP 技术 (http: //www. 4i2i. com/) 。 

科 胜 讯 ， 安 菲 西 恩 卫 核 : FPCGA 和 ASIC 中 的 Verilog 和 VHDL IP 核 。 该 公司 
专业 从 事 视 频 、 成 像 、 安 全 、 语 音 和 音频 、 无 线 宽 带 和 DSP 技术 (http:// 
www. conexant. com/products ) 。 

Axeon 有 限 公 司 : Vindex IP 内 核 一 一 可 综合 、 扩 展 的 微 处 理 器 架构 ， 经 过 优 
化 可 以 支持 机 器 学 习 (http://www. axeon. com) 。 

ARC: 可 配置 内 核 : CPU/ DSP (http://www. arc. com/) 。. 
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数字 内 核 设 计 : 微 控 制 器 、 总 线 接口 和 运算 协 处 理 器 的 VHDL 和 Verilog 内 
核 (http://www. ded. com. pl/) 。 

这 表明 了 IP 产品 的 多 样 性 ， 以 及 组 件 规 模 的 加 大 。 大 核 趋向 于 在 专用 标准 
指标 有 性 能 需求 或 性 能 受 限 的 领域 ， 如 在 有 视频 编码 (JPEG，MPEG) 及 总 线 和 
存储 器 接口 的 情况 下 。 

人 硬 卫 核 内 部 组 件 可 以 被 进一步 定义 (Chiang 等 ”2001)， 尽 管 这 些 定义 可 以 
被 P 内 核 的 所 有 变化 应 用 ， 硅 前 阶段 涉及 更 多 的 软 IP 核 ， 生 产 阶段 涉及 预 实现 
[Eg ipa IP AK. 

投产 前 : 如 果 设 计 通 过 仿真 验证 ， 则 给 予 一 星 评级 。 

铸造 验证 : 如 果 被 特定 过 程 证 实 ， 则 给 予 三 星 评级 。 

生产 : 如 果 核 心 被 证 明 可 生产 ， 则 给 予 五 星 评级 。 

在 开发 IP 时 ， 厂 商 往往 提供 低 成 本 的 交易 ， 以 吸引 系统 设计 人 员 能 够 使 用 
他 们 的 新 产品 ， 并 验证 它 的 成 功 。 一 旦 硅 忌 片 被 证 实 成 功 ， 成 为 有 市 场 优势 的 产 
品 ， 就 成 为 了 具有 竞争 力 的 产品 。 


10.3 IP 核 的 演变 


随 着 技术 的 进步 ， 芯 构件 粒度 的 复杂 性 增加 ， 设 计 抽象 层次 得 到 提高 。 这 导 
致 了 基本 构建 模块 层次 结构 的 设计 演变 。 本 节 将 给 出 这 种 演变 的 总 结 。 

在 芯片 领域 ， 数 据 库 的 发 展 带 来 了 高 级 别 的 粒度 合成 。 库 在 最 低级 别 定义 的 
门 控 功 能 和 寄存 器 。 随 着 粒度 增加 ， 数 据 库 可 实现 如 UART, ARR, USB 控制 
器 等 功能 的 合格 功能 模块 。 与 此 同时 在 DSP 处 理 器 领域 ， 如 TI 公司 这 样 的 企业 ， 
已 经 成 功 地 为 自己 设备 上 的 应 用 生产 软件 解决 方案 。 随 着 运算 功能 的 发 展 ，IP 
核 在 FPGA 和 ASIC 和 重用 设计 中 发 挥 了 作用 。 这 是 支持 ASIC 合成 基本 构建 模块 
的 自然 进展 。 致 力 于 研究 用 复杂 有 效 的 方法 执行 一 些 最 基本 的 算术 运算 的 价值 ， 
有 助 于 产生 性 能 标准 极 具 吸 引力 的 高 度 复杂 的 IP 核 的 设计 。 | 

图 10-2 所 示 为 IP 内 核 的 这 种 演变 ， 以 及 它们 如 何 用 更 低级 的 模块 形成 关键 
部 件 增加 复杂 性 ， 以 达到 更 高 级 别 的 抽象 图 示 。 算 术 组 件 模块 展示 了 大 量 关 键 的 
数学 运算 ， 如 加 法 、 乘 法 和 除法 ， 解 决 了 如 超前 进位 和 高 基 运 算 等 的 技术 问题 。 
第 3 章 涵盖 了 很 多 达到 这 一 功能 级 别 的 技术 。 

随 着 较 复 杂 芯 片 的 到 来 ， 所 述 运算 组 件 成 为 复杂 分 层 结构 的 下 一 级 构建 模 
块 ， 例 如 滤波 器 组 所 组 成 的 大 阵列 MAC 模块 。 这 导致 了 如 FFT 和 DCT 的 基本 
DSP 功能 的 发 展 。 这 些 实例 以 矩阵 为 基础 运行 ， 其 中 包括 了 大 量 在 软件 中 表现 欠 
佳 的 重复 计算 。 它 们 可 以 用 许多 基于 乘法 和 累加 操作 的 关键 构建 模块 来 建立 。 算 
法 的 结构 化 性 质 使 它 具 有 可 扩展 性 ， 允 许 使 用 很 少量 的 参数 来 控制 设计 出 的 体系 


218 信号 处 理 系统 的 FPCA 实现 






Í 自 适应 波束 
形成 | 


提高 
复杂 度 


图 10-2 IP 核 的 演变 


结构 。 例 如 字 长 和 截断 的 选择 。 还 有 基于 该 矩阵 运算 规模 的 其 他 例子 ， 比 如 与 过 
滤器 上 的 抽 头 数 有 关 。 这 使 得 面向 单一 应 用 的 工作 可 以 被 扩展 以 满足 各 种 应 用 的 
需要 。 

其 他 更 复杂 的 基础 模块 是 从 基本 的 算术 功能 开发 而 来 的 。 以 滤波 器 为 基础 的 
更 复杂 的 例子 有 通过 LMS 算法 或 更 复杂 的 基于 RLS 算法 的 QR 实现 自 适 应 滤波 
器 。 后 者 在 第 12 章 的 高 等 数学 运算 中 给 出 了 一 个 很 好 的 IP 核 设计 的 例子 。 其 他 
的 例子 ， 如 前 向 纠 错 链 和 加 密 ， 因 为 有 一 个 高 度 复杂 的 数值 处 理 ， 所 以 也 已 经 非 
常 成 功 。 

当前 IP 内 核 的 成 熟 水 平 , 已 经 能 够 完成 先前 需要 大 量 独立 逻辑 模块 或 设备 
的 全 部 功能 。 这 再 一 次 提升 了 基础 逻辑 块 的 级 别 。DCT 就 是 这 样 一 个 例子 。DCT 
的 高 性 能 全 模块 的 发 展 已 是 被 热切 关注 的 领域 (Hunter 1999) 。 其 中 的 一 个 复杂 
组 件 正 是 JPEG 和 MPEG 图 像 压缩 算法 的 基础 ， 其 本 身 就 是 商业 化 全 产品。 

下 面 的 章节 将 讲解 每 一 层 抽象 设计 所 涵盖 的 更 多 细节 。 


10.3.1 运算 库 
图 10-2 所 示 为 一 些 基本 的 数学 运算 ， 即 加 法 、 乘 法 、 除 法 和 二 次 方 根 。 即 
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使 是 最 基础 的 加 法 的 高 效 硬件 实现 ， 也 推动 了 一 个 领域 的 研究 ， 即 把 操作 分 解 为 
最 低位 水 平 的 抽象 ， 并 巧妙 地 进行 这 些 操 作 ， 在 分 区 、 时 钟 速度 和 输出 时 延 方 面 
提高 整体 性 能 (Ercegovac 和 Lang 1987, Hwang 1979, Koren 1993, Schwarz 和 
Flynn 1993, Srinivas 和 Parhi 1992, Takagi 等 ”1985) 。 以 下 部 分 将 介绍 有 关 运 算 
组 件 的 选择 及 如 何在 代码 中 加 入 参数 的 一 些 细节 。 

1. 定点 和 浮 点 运算 

算术 运算 可 以 执行 使 用 定点 或 浮 点 运算 。 如 在 第 3 章 所 讨论 的 ， 位 宽 被 定点 
运算 分 成 一 个 定 宽 幅 度 分 量 和 一 个 定 宽 小 数 部 分 。 由 于 位 宽 固定 ， 因 此 为 了 确保 
所 得 到 的 值 是 准确 的 ， 上 溢 和 下 溢 检 测 则 至 关 重 要 。 前 面 的 图 3-2 所 示 的 数字 浮 
点 运算 提供 了 更 好 的 动态 范围 。 

虽然 定点 设计 和 浮 点 设计 的 数据 宽度 内 的 记 数 法 不 同 ,但 是 操作 的 主要 功能 
AREZ, WA 10-3 所 示 的 乘法 示例 。 目 前 已 有 关于 从 定点 自动 转化 为 浮 点 的 
研究 (Shi 和 Brodersen 2003) , 


定点 型 浮 点 型 





图 10-3 定点 型 和 浮 点 型 的 运算 


正如 第 3 章 讨论 的 ， 浮 点 运算 和 定点 运算 各 有 其 优点 和 缺点 。 莱 特 博 迪 等 人 
(2007) 实现 了 让 FPGA 上 的 QR 滤波 器 使 用 浮 点 运算 。 早 期 的 QR 滤波 器 研究 
(Walke 1997) 显示 ， 相 比 定点 运算 ， 浮 点 运算 是 更 有 效 的 特殊 应 用 (雷达 自 适 
应 波束 形成 ) 解决 方案 。 然 而 ， 这 次 调查 集中 在 ASIC 应 用 上 。 由 于 FPGA 的 存 
在 ,定点 运算 在 与 浮 点 运算 抗衡 的 路 上 从 未 见 天 日 ， 似 乎 只 能 依赖 于 未 来 的 FP- 
GA 器 件 的 功能 。 事 实 上 ，FPCA 若 缺 乏 专门 的 浮 点 硬件 ， 则 工作 性 能 会 很 差 ， 
Craven 和 Athanas (2007) 的 研究 表明 ， 其 性 能 可 能 比 处 理 器 更 差 。 


220 信号 处 理 系统 的 FPCA 实现 








2. 加 法 、 乘 法 、 除 法 和 二 次 方 根 

高 性 能 运算 组 件 的 应 用 需要 大 量 广泛 的 工作 ( Ercegovac 和 Lang 1987, 
Hwang 1979, Koren 1993, Schwarz 和 Flynn 1993, Srinivas 和 Parhi 1992, Takagi 
等 1985) ， 其 中 一 些 已 经 在 第 3 章 中 强调 了 。 对 于 加 法 和 减法 还 有 乘法 ， 专 用 
定点 加 法 和 乘法 硬件 的 演进 否定 了 进行 关于 应 用 详细 讨论 的 需要 ,在 很 大 程度 
上 ， 除 了 浮 点 ， 专 用 核心 是 无 关 紧 要 的 。 奥 德 菲 尔 半导体 〈 现 科 胜 讯 ) 和 东北 
大 学 开发 了 FPCA 和 ASIC 的 浮 点 运算 核 。 第 3 章 强 调 了 数 种 除法 的 执行 方式 ， 
包括 循环 法 和 功能 迭代 法 。 这 些 技术 可 以 用 明确 的 乘 性 和 加 性 阶段 进行 架构 描 
述 ， 以 扩展 到 满足 字 长 要 求 。 平 衡 的 关键 是 使 用 LUT 创建 初始 估计 来 加 快 这 一 
进程 ， 但 这 使 得 核心 的 扩展 性 变 差 。 

随 着 LSI 系统 设计 的 抽象 层次 超越 了 位 级 别 的 算术 计算 描述 ， 像 Synplicity 
这 样 的 工具 使 关键 的 定点 乘法 和 加 法 运算 部 件 可 以 使 用 简单 的 算术 操作 数 。FP- 
GA 设备 已 经 可 以 实现 高 性 能 定点 乘法 操作 。 


10.3.2 基本 DSP 功能 


本 节 提 供 了 一 些 以 底层 算术 模块 为 基础 的 更 复杂 的 核 的 例子 。 下 述 算法 的 更 
多 详情 参见 第 2 章 。 

FFT; FFT 是 一 种 基于 和 矩阵 的 强大 有 效 的 运算 。 它 的 使 用 广泛 ， 可 以 被 用 在 
正 交 频 分 复 用 等 应 用 中 。 正 交 频 分 复 用 是 一 种 强大 的 调制 / 解 调 方案 ， 用 于 如 无 
线 (IEEE802. 11a/g) 或 广播 (DVB-T/H) 等 通信 应 用 。 

DCT; 这 是 男 一 种 基于 和 矩阵 的 运算 ， 在 很 多 图 像 处 理应 用 中 有 重要 作用 。 

LMS 和 RLS 滤波 器 : 自 适应 滤波 算法 被 用 于 移动 通信 和 雷达 等 多 种 应 用 。 

微波 : 小 波 分 解 有 一 系列 信号 处 理应 用 ， 其 中 包括 图 像 压缩 。 

滤波 器 : 滤波 器 架构 可 以 高 度 固定 ， 由 一 系列 收缩 的 重复 单元 组 成 ， 例 如 
MAC 操作。 显然， 这样 的 固定 结构 能 够 创建 可 扩展 代码 ， 以 支持 一 系列 滤波 器 。 
如 果 硬 件 水 平 需要 保持 在 最 低 限 度 ， 则 其 复杂 度 会 急剧 增加 ， 硬 件 重用 专注 于 核 
心 业务 调度 算法 的 完整 功能 。 

在 所 有 情况 下 ， 以 这 种 方式 获得 的 电路 结构 ， 是 为 了 保持 规律 性 和 可 编程 
性 ， 因 为 这 将 允许 核 参 数 化 ， 并 跨 参 数 范围 产生 相当 一 致 的 性 能 结果 。 拿 FFT 
来 说 ，FFT 可 以 这 样 分 解 ， 即 用 更 小 的 模块 来 创建 更 大 的 FFT。 很 明显 模块 大 小 
可 作为 参数 ， 尽 管 它 可 能 不 是 最 有 效 的 面积 和 速度 的 解决 方案 。 然 而 ， 模 块 大 小 
参数 会 带 来 良好 的 性 能 。 一 个 可 扩展 加 法 器 的 可 用 性 也 意味 着 对 于 不 同 的 字 长 ， 
性 能 是 可 预测 的 ， 但 由 于 Xilinx 公司 的 Virtex (18 位 ) 和 Altera 的 Stratix (36 
位 ) AY FPGA 族 限定 字 长 ， 因 此 这 成 了 乘法 器 功能 的 难点 。 一 旦 超过 这 些 字 长 
度 ， 则 乘法 器 不 得 不 被 限制 在 数 个 模块 中 。 
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10.3.3 复杂 的 DSP 功能 


上 面 所 总 结 的 DSP 功能 形成 应 用 范围 内 的 主要 算法 功能 ， 并 需要 通过 关键 
参数 进行 扩展 。 然 而 ， 也 有 一 些 应 用 的 性 能 有 非常 好 的 标准 定义 ， 例 如 JPEG 和 
MPEG。 如 所 讨论 的 ，DCT 形成 JPEG 压缩 中 的 一 个 关键 功能 。 如 图 10-4 所 示 。 
一 个 关键 的 平衡 是 直接 在 硬件 上 创建 更 复杂 的 DCT 功能 ， 并 把 功能 的 其 余部 分 
制 成 软件 。 那 么 如 有 需要 ， 就 可 重用 硬件 模块 来 制造 更 大 的 模块 。MPEG4 视频 
编码 涉及 占用 90% 处 理 时 间 的 额外 动态 估计 和 补偿 模块 。 因 此 ， 存 在 在 用 于 动 
态 评 计 的 参数 化 内 核 。 





源 代码 


Al 10-4 JPEG 图像 压缩 


10.3.4 IP 核 的 未 来 


随 着 核 构建 模块 中 设计 抽象 层次 的 提高 ， 设 计 师 的 作用 是 系统 集成 ， 特 别 是 
利用 现 有 的 FPGA 器 件 在 一 台 设 备 上 实现 完整 的 系统 功能 。 由 于 IP 核 的 使 用 继 
续 增 长 ， 因 此 设计 流 内 的 其 他 方面 吸 待 处 理 。 以 下 引用 自 Gajski 等 人 (2000) : 

“IP 工具 开发 人 员 为 IP 供应 商 和 系统 集成 提供 设计 方法 和 工具 ， 以 支持 IP 
开发 和 系统 集成 ”。 

以 下 部 分 将 详细 介绍 从 设计 理念 到 可 扩展 的 〈 软 全 ) 解决 方案 的 过 程 。 


10.4 可 参数 化 ($k) IP 4Z 


本 节 将 涵盖 实现 DSP 功能 的 参数 化 IP 核 的 开发 。 一 个 数学 组 件 的 硬件 设计 
的 起 点 可 以 是 来 自 该 算法 的 SFG 描述 。 这 里 给 出 的 算法 图 示 展 示 了 设计 所 需 组 
件 内 部 的 相互 依赖 。 该 描述 可 以 处 于 从 位 级 算术 运算 到 小 区 级 别 功能 的 不 同 层 
Wo SFG 通过 这 些 组 件 给 出 数据 流 的 相关 信息 ， 并 从 可 开发 硬件 体系 结构 中 提供 
一 个 非常 强大 的 设计 描述 。 

图 10-5 所 示 SFG 的 例子 描绘 了 执行 复合 乘法 的 两 种 变化 。 这 个 简单 的 例子 
说 明了 通过 重新 排序 算术 运算 ， 作 何 更 改 可 以 增强 区 域 或 所 得 的 硬件 体系 结构 的 
关键 路 径 。(a +jb) 和 “(c+jd) 两 个 数字 的 复数 乘法 的 解决 方案 为 : 

(a+jb)(c+jd) 2[a(c-d) +d(a-b)]+jlb(e+d) +d(a-b) | 
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ac-bd jlad+bc) 





在 这 两 条 路 上 有 1 个 paca TAE 
在; 加 法 器 和 1 个 乘法 器 _ : 
Me RE AUER ac—bd j(ad+be) 


a) i b) 


图 10-5 复合 乘法 器 SFG 
a) 4 个 乘法 器 /2 个 加 法 器 b) 3 个 乘法 器 /5 个 加 法 器 


图 10-6 所 示 为 从 算法 的 SFG 表示 开始 ， 基 于 DSP 的 电路 设计 的 传统 设计 流 
程 。 通 常情 况 下 ， 由 于 设计 变化 或 未 完成 预期 成 就 ， 此 循环 将 重新 迭代 。 许 多 步 
又 在 前 面 的 章节 有 提 及 。 该 过 程 开 始 于 用 于 SFG 或 DFG 描述 的 算法 定义 。 然 后 
进行 在 第 2 章 中 强调 的 细节 分 析 ， 确 定 如 内 部 字 长 、 截 断 、 吞 吐 率 问题 等 的 关键 
方面 。 第 8 章 详 述 了 创建 电路 结构 的 界限 。 电 路 结构 被 编码 成 一 个 基于 HDL fi 
述 ， 并 创建 最 终 设 计 的 传统 集成 工具 。 如 果 某 些 方面 规格 需要 改变 ， 如 字 长 度 ， 
则 传统 的 全 设计 流程 需要 全 部 重复 。 

参数 化 HDL 的 IP 核发 展 使 得 该 设计 流 显著 改变 ， 如 图 10-7 所 示 。 设 计 的 
初始 研究 需要 研究 字 长 和 算术 对 SNR、 面 积 和 时 序 性 能 的 影响 。 要 着 力 确保 包 
含 额外 的 流水 线 时 其 运转 仍然 是 准确 的 ， 目 的 是 使 核 的 参数 无 缝 地 导致 扳 向 范围 
的 规格 精确 实现 的 库 ， 而 无 需 更 改 代码 的 内 部 工作 。 系 统 应 有 效 地 允许 大 量 参 数 
被 反馈 到 代码 的 顶层 。 它 将 通过 不 同 抽象 层次 的 代码 传递 到 最 底层 。 显 然 ， 在 染 
构 层 面 需要 相当 大 的 努力 来 开发 这 个 参数 化 的 电路 架构 。 在 时 间 和 精力 方面 的 初 
始 成 本 无 疑 阻 碍 了 扩大 设计 的 再 利用 原则 的 使 用 。 但 是 ， 在 该 初始 经 费 上 ， 公 司 
可 以 做 到 节省 大 量 的 时 间 和 金钱 资源 。 选 择 什么 设计 组 件 ， 基 于 什么 IP 进一步 
设计 和 发 展 ， 是 这 一 成 功 的 关键 。 初 始 成 本 必须 从 长 远 来 节省 资源 。 

未 来 的 设计 工程 师 需要 学 会 如 何 对 一 个 完整 的 设计 实现 从 头 到 尾 的 重用 方 
法 。 在 设计 过 程 中 需要 考虑 的 问题 ， 例 如 字 长 影响 、 硬 件 映射 、 时 延 和 其 他 电路 
HDL 模型 可 以 生成 之 前 的 时 序 问题 。 需 要 考虑 的 方面 创建 到 设计 过 程 中 一 个 全 
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新 的 层面 上 ， 和 设计 师 需要 保持 在 任何 他 们 生产 的 无 论 是 开发 或 测试 目的 头脑 可 
重用 性 。 如 果 一 个 设计 以 参数 化 的 方式 开发 ， 那 么 最 初 的 分 析 阶 段 可 以 从 设计 流 
程 来 消除 ， 如 图 10-7 所 示 ， 使 附加 电路 在 极 短 的 时 间 内 开发 和 布局 规划 ， 通 常 
以 天 而 不 是 月 为 尺度 。 这 代表 了 一 个 核 开 发 人 员 (Howes 1998) 的 明确 市 
场 ， 因 为 它 可 以 大 大 加 快 客户 的 设计 流程 。 然 而 ，IP 核 公司 可 参数 化 开发 需要 
一 种 不 同 的 设计 方法 ， 它 将 为 一 系列 应 用 提供 有 质量 的 解决 方案 。 










算法 研究 
用 软件 仿真 来 确保 
字 长 需求 








结构 综合 


处 理 器 时 延 、 截 断 、 


重 述 要 实现 字 长 和 内 部 字 增 长 


高 效 的 分 区 /时 间 


结构 重 定时 
和 优化 


可 实现 电路 
结构 
用 HDL 仿真 模型 HDL 综合 
确保 设计 准确 性 代码 
EDIF 网 表 、 平 面 布 图 
和 路 径 的 综合 


图 10-6 VLSI 电路 设计 流 
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EDIF 网 表 、 平 面 布 图 
和 路 径 的 综合 


图 10-7 快速 设计 流 
10.4.1 适合 IP 开发 的 识别 设计 组 件 


在 一 个 公司 的 结构 中 ， 路 线 图 被 认为 是 IP 库 的 发 展 重点 ， 是 因为 重用 概念 
引入 设计 时 有 更 大 一 笔 经 费 。 客 观看 待 可 能 的 未 来 应 用 会 有 更 大 成 功 ， 使 开发 流 
水 线 可 以 从 最 初 的 基础 演进 ， 从 而 使 公司 从 一 开始 就 有 重用 设计 。 通 过 参数 化 的 
字 长 和 流水 线 的 水 平 ， 以 及 允许 内 存 资源 和 投入 的 可 扩展 性 ， 往 往 可 以 从 相同 的 
种 子 设计 来 开发 一 系列 产品 。 

较 大 的 设计 可 能 需要 被 细 分 为 可 管理 的 部 分 ， 形 成 可 重用 的 组 件 。 在 一 定 范 
围 的 不 同 应 用 需要 稍 有 不 同 的 实现 方式 和 功能 ， 对 于 如 MPEG 视频 压缩 的 大 设 
计 更 是 如 此 。 通 过 挑选 出 不 同 的 MPEG 配置 文件 中 保持 不 变 的 关键 部 件 ， 使 用 
它们 作为 所 有 设计 的 关键 硬件 加 速 器 ， 可 取得 及 时 推 向 市 场 的 巨大 进步 。 此 外 ， 
现 有 模块 具有 已 全 部 经 过 以 前 应 用 测试 的 优势 ， 特 别 是 已 经 对 制造 或 部 署 到 FP- 
GA 上 的 。 重 用 这 样 的 模块 以 增加 核 的 整体 设计 稳定 性 。 现 有 的 下 也 可 以 形成 更 
高 层次 IP 设计 的 关键 构建 模块 ， 成 为 分 层 设 计 。 

图 10-8 所 示 为 其 中 的 一 些 关键 点 。 一 个 重复 模块 的 描述 被 应 用 于 多 个 设计 。 
类 似 地 ， 图 中 表示 了 用 低级 模块 分 层级 建立 更 大 的 设计 。 公 司 路 线 图 突出 了 仔细 
选择 用 来 指派 额外 设计 组 件 的 重要 性 。 可 扩展 性 是 另 一 个 重要 的 考虑 因素 ， 即 设 
计 可 否 被 扩展 ， 并 调整 为 满足 各 种 应 用 的 要 求 。 语 音 压缩 是 这 样 的 一 个 例子 ， 编 
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解码 器 可 能 需要 工作 的 信道 数目 范围 取决 于 整体 应 用 ， 例 如 ， 是 一 个 简单 的 
DECT 电话 还 是 电信 和 网络 








公司 路 线 图 
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图 10-8 IP 的 关键 构建 模块 


10.4.2 确定 IP 核 参数 


识别 IP 核 开 发 中 的 关键 参数 ， 需 要 对 该 芯 的 使 用 范围 有 详细 的 了 解 。 这 样 
做 的 目的 不 是 仅仅 创造 尽 可 能 多 的 灵活 性 ， 也 为 了 确认 这 些 额外 工作 将 带 来 的 长 
远 利益 。 过 度 参数 化 设计 不 仅 影响 开发 时 间 ， 而 且 还 影响 到 需要 考虑 所 有 核 排列 
的 验证 和 测试 。 换 言 之 ， 可 以 在 考虑 设计 时 间 和 设计 性 能 时 增加 一 个 额外 的 可 变 
的 影响 ， 并 权衡 增加 的 灵活 性 将 如 何 拓宽 IP 核 的 使 用 范围 。 

以 下 是 示例 参数 ， 其 中 一 些 如 图 10-9 所 示 : 

1) 模块 /架构 ; 

2) 字 长 ; 

3) 内 存 ; 

4) 流水 线 ; 

5) 控制 电路 ; 

6) 测试 环境 。 

一 个 明显 的 参数 是 字 长 。 字 长 的 选择 涉及 信 品 比 和 性 能 标准 之 间 的 协调 ， 如 
区 域 和 关键 路 径 。 图 10- 10 所 示 为 不 同 字 长 的 信 品 比 。 从 这 个 简单 的 例子 中 可 以 
看 出 ， 字 长 的 进一步 增加 不 再 显著 提高 整体 性 能 。 对 于 某 些 组 件 ， 如 加 法 器 ， 增 
加 一 位 将 线性 扩展 应 用 结果 的 面积 。 然 而 ， 对 于 乘法 器 和 除法 之 类 的 组 件 ， 增 加 
字 长 将 对 区 域 产 生 巨 大 影响 。 因 此 ， 字 长 分 析 和 截断 或 吞吐 分 析 一 样 重 要 。 

实现 硬件 的 完全 扩展 性 是 另 一 个 例子 。 该 图 展示 了 通过 单一 模块 的 重复 满足 
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图 10-9 IP 参数 
应 用 所 需要 的 规模 。N 抽 头 滤 : 
波 器 就 是 这 样 的 例子 。 随 着 N PP calito ei fl 
的 增 大 ， 硬 件 应 该 相应 地 增加 
逻辑 块 ， 以 满足 应 用 要 求 。 。 SNR 微 小 
由 于 不 同 的 字 长 及 输入 或 UU 
存储 值 的 数量 变化 ， 存 储 器 也 
需要 被 扩展 。 更 重要 的 是 如 何 
创建 存储 器 架构 。 第 5 章 的 表 




















一 一 一 一 一 一 一 
5-3 和 表 5-8 给 出 了 可 用 在 Al- 字 长 
tera 的 Stratix 和 Xilinx 公司 的 i KI 10-10 字 长 分 析 


Virtex FPGA 系列 的 一 系列 内 存 。 很 显然 ， 散 入 式 RAM 为 面积 提供 了 高 效 粗 存储 
模块 ， 但 能 入 式 LUT 由 于 其 操作 的 高 度 并 行 性 且 被 共 置 于 硬件 ， 因 此 可 允许 更 
快 的 操作 。 在 核 的 开发 中 这 也 需要 被 考虑 到 。 

组 合子 模块 可 以 实现 不 同 的 应 用 。 在 图 10-9 中 ， 它 们 被 标记 为 A，B，C， 
D 模块 ， 描 述 了 一 个 简单 的 架构 。 区 域内 的 字 长 度 的 附加 位 将 对 关键 路 径 具 有 连 
锁 效 应 ， 从 而 可 能 导致 需要 在 使 用 A, B, C, D 各 子 模块 的 相同 简单 结构 的 设 
计 中 引入 更 长 的 流水 线 阶 段 ， 如 图 所 示 ， 人 允许 流水 线 的 层次 不 同 是 可 拓宽 应 用 机 
会 的 一 个 重要 的 参数 化 特征 。 
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应 用 的 数据 速率 的 灵活 性 和 相关 时 钟 速率 的 性 能 也 将 需要 给 设计 中 的 流水 线 
分 层 ， 以 满足 关键 路 径 的 需求 。 如 已 经 提 到 的 ， 这 可 以 配合 字 长 度 的 变化 和 流水 
线 数 目的 经 常 性 变化 成 为 可 重复 使 用 的 算术 核心 的 一 部 分 。 显 然 ， 一 个 模块 内 流 
水 线 数目 的 增 减 ， 将 对 关联 模块 和 和 更 高 层 结 构 的 时 间 和 调度 产生 连锁 影响 。 由 
于 这 个 原因 ， 低 层 组 件 内 的 流水 线 控制 ， 必 须 从 模块 设计 的 较 高 层 做 ， 从 而 使 较 
低层 的 代码 不 再 需要 手动 编辑 。 

如 果 参 数 发 生变 化 ， 如 额外 的 流水 线 时 延 ， 输 入 信号 或 字 长 数目 的 增加 等 ， 
则 有 必要 开发 可 扩展 控制 电路 。 也 这 可 能 对 模块 的 周期 和 时 序 产 生 影响 。 一 个 重 
要 的 例子 就 是 如 何在 单一 的 硬件 上 开发 可 参数 化 控制 来 处 理 多 个 操作 进程 。 

一 个 完全 参数 化 设计 是 一 个 需要 计划 的 难题 。 总 体 目标 是 ， 代 码 可 以 被 在 极 
短 的 时 间 内 再 合成 为 一 个 新 的 体系 结构 ， 同 时 仍 满 足 所 需 的 性 能 标准 。 这 是 一 个 
IP 核 成 功 的 关键 因素 。 至 关 重 要 的 是 ， 所 得 到 的 核 具 有 在 面积 、 功 耗 和 速度 方 
面 媲 美 手工 设计 的 性 能 数据 。 同 样 的 ， 该 过 程 涉及 时 间 、 金 钱 资源 及 核 的 性 能 标 
准 之 间 的 平衡 。 

开发 可 参数 化 核 的 另 一 种 方法 可 以 是 创造 软件 代码 来 自动 化 HDL 模块 的 脚 
本 。 此 方法 在 使 用 Verilog 时 特别 有 用 ， 因 为 在 可 扩展 设计 中 ， 它 不 具备 VHDL 
的 灵活 性 。 

设计 中 的 参数 化 水 平 也 必须 考虑 到 。 从 一 开始 就 让 设计 拥有 尽 可 能 多 的 灵活 
性 似乎 是 合理 的 。 这 样 做 必然 会 拓宽 IP ila 突出 过 度 参数 化 的 问题 。 
Gajski 等 人 (2000) 指出 了 由 于 参 过 
度 参数 化 的 问题 : 核 内 的 变量 越 多 ， 

越 难 验证 设计 的 每 个 排列 的 全 部 功 seem E uuu VE titanic amit 
能 。 另 一 方面 ， 已 经 过 于 通用 化 的 " B U 
设计 可 能 无 法 满足 特定 应 用 的 性 能 Ea 
BER, Gajski 表示 ， 参 数 数量 的 增 

加 ， 降 低 了 满足 用 户 需求 的 设计 质 。 图 10-11 基于 设计 可 靠 性 的 综合 的 影响 
量 和 特点 ， 也 增加 了 验证 和 测试 的 困难 。 图 10-11 突出 了 这 些 问题 ， 有 必要 在 选 
择 参数 时 考虑 这 些 问题 ， 以 找到 设计 灵活 性 和 可 靠 性 之 间 的 平衡 。 


10.4.3 ”针对 FPGA 技术 的 参数 化 特性 的 发 展 


许多 针对 ASIC 应 用 的 IP 设计 可 被 扩展 为 FPGA 应 用 ， 反 之 亦 然 。 每 种 技术 
都 有 其 自身 的 特点 ， 但 由 于 这 些 差 异 ， 在 选择 FPGA 或 ASIC 族 时 在 顶层 重新 面 
向 核 的 代码 变 的 可 行 。 这 在 FPGA 被 快速 处 理 中 特别 重要 ， 因 此 遗留 代码 需要 为 
未 来 的 器 件 和 封装 提供 空间 。 图 10-9 所 示 为 如 何 把 一 个 种 子 设计 用 作 面 向 ASIC 
和 FPGA 的 具体 技术 设计 的 基础 。 
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同一 代码 的 两 种 技术 之 间 有 明显 的 代码 重用 优势 ， 通 过 不 限制 目标 的 技术 扩 
大 产品 市 场 。 然 而 ， 它 也 适用 于 验证 框架 ， 即 以 FPGA 为 原型 的 核 ; 相同 的 代码 
会 被 重 靶 向 到 ASIC。 从 FPGA 到 ASIC 应 用 的 代码 转换 实施 本 身 显然 无 法 保证 不 
出 错 。 但 是 ， 验 证 实时 FPGA 平台 上 的 代码 功能 为 设计 过 程 带 来 了 极 大 的 稳定 
性 ， 并 使 得 功能 设计 得 到 加 强 ， 以 更 好 地 满足 规格 需要 。 在 两 个 定向 应 用 的 主要 
流 之 间 切 换 时 通常 需要 下 列 问题 : 

1) FPGA KADER ; 

2) ASIC 定制 设计 的 运算 核 ; 

3) 特定 技术 内 存 。 

流水 线 需要 在 技术 、 区 域 和 资源 的 选择 上 被 调整 为 满足 所 需 的 性 能 。 与 
ASIC 相 比 ，FPGA 资源 有 限 。 因 为 成 本 原因 ， 设 计 师 不 妨 保持 FPGA 器 件 的 特定 
档次 和 规模 。 限 制 流水 线 的 数量 会 影响 可 达到 的 最 大 时 钟 速率 。 

FPGA 应 用 的 他 组 件 极 大 地 加 快 了 在 单一 设备 上 的 全 系统 开发 。 此 外 ， 像 
Xilinx 和 Altera 这 样 的 供应 商 已 经 与 外 部 设计 公司 合作 开发 面向 他 们 的 设备 的 函 
数 库 ， 并 可 在 官方 网 站 上 下 载 ， 特 别 是 Xilinx Alliance 项 目 和 Altera 的 Megafunc- 
tions Partners 项 目 。 获 取 这 样 的 材料 提高 了 用 户 使 用 FPGA 设备 和 拓宽 市 场 的 能 
力 。 这 象征 着 IP 核 供应 商 、FPGA 公司 和 设计 公司 的 共 荣 关系 。 

1. 内 存 模块 实例 化 

FPGA 器 件 之 间 的 区 别 之 一 是 存储 器 模块 。 每 一 族 模块 都 有 其 自己 的 架构 。 使 
用 Verilog 的 FPGA 应 用 可 有 两 个 可 用 方案 。 目 标 设备 的 RAM 模块 实例 化 可 以 用 项 
层 代 码 的 DEFINE 指向 所 选择 的 存储 器 。 另 外 ， 代 码 可 以 被 写成 如 存储 器 应 用 中 涉 
及 的 方式 ， 在 综合 中 这 些 代码 会 被 现在 的 工具 实例 化 为 存储 器 。 但 是 ， 如 果 存 储 器 
的 实例 可 以 手动 获得 的 话 ， 则 代码 会 获得 一 些 改 进 ， 但 也 会 将 更 加 复杂 。 

2. 算术 模块 实例 化 

不 同 的 FPGA 可 以 将 各 种 不 同 的 算法 提供 给 用 户 使 用 ， 使 这 些 租 入 式 模块 可 
以 在 代码 中 进行 推断 。 然 而 ， 建 立 算法 需要 定制 更 大 的 位 宽 。 另 一 个 方法 是 将 这 
些 咎 入 式 模块 用 作 核 运算 模块 ， 来 实现 浮 点 型 算法 区 。 如 果 这 些 代码 需要 在 不 同 
的 FPGA 之 间 ， 甚 至 是 FPCA 和 ASIC 之 间 使 用 时 ， 就 需要 一 个 设备 在 顶层 定义 
这 种 算法 。 在 Verilog 中 ,这 将 通过 使 用 顶层 文件 中 的 DEFINE 来 允许 用 户 自 定 
义 设 计 ， 从 而 达到 当前 的 需要 ， 并 为 他 们 提供 三 种 选择 : 

1) 推断 算法 : 如 A4+8B 等 ; 

2) FPGA 内 置 运算 实例 化 ; 

3) 自 定义 算术 运算 实例 化 。 

后 者 可 能 是 大 数值 的 乘法 或 浮 点 型 算法 的 更 好 选择 。 如 果 为 满足 关键 路 径 的 
使 用 要 求 需要 额外 的 流水 线 ， 则 使 用 这 些 自 定 义 算法 也 是 很 重要 的 。 此 设计 依赖 
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性 也 需要 进行 分 析 。 

3. 参数 化 设计 和 测试 环境 

IP 核 所 有 相关 测试 代码 的 设计 都 应 有 可 扩展 性 的 思想 。 用 于 功能 验证 的 精 
确 软 件 模型 应 具有 不 同位 宽 来 匹配 IP 核 。 为 周期 精确 测试 ， 也 必须 考虑 到 时 延 。 
测试 平台 和 测试 数据 推导 也 需要 可 参数 化 。 所 以 允许 使 用 一 个 完全 自动 化 的 代理 
IP 核 及 其 相关 联 的 测试 软件 。 在 下 核 开 发 中 ， 使 用 如 C 语言 软件 生成 的 测试 工 


具 和 测试 数据 是 很 有 优势 的 ， 如 图 10-12 所 示 。 


关键 参数 : 
输入 端 数量 、 滤 波 器 规格 
性 能 标准 ， 如 流水 线 、 内 
存 大 小 、 字 长 







测试 周期 C 模 型 与 
功能 C 模 型 比较 


HDL 测试 与 
位 精准 C 语 言 
模型 的 比较 


生成 HDL 测试 
规则 和 测试 数据 


HDL 测试 规则 
和 测试 数据 


图 10-12 测试 设计 流 
10.4.4 简单 的 FIR 滤波 器 应 用 


本 节 以 适用 于 图 2- 13 的 一 个 简单 FIR 滤波 器 的 参数 化 设计 为 例 ， 设 计 的 关 
键 参数 将 被 明示 ， 并 给 出 如 何 把 它们 编写 进 代码 的 提示 。 更 完整 的 FIR 设计 实例 
在 第 8 章 给 出 。 

本 实例 的 FIR 滤波 器 有 4 级 层次 结构 ， 单 独 的 运算 单元 为 最 低级 ， 全 FIR 滤 
波 器 作为 最 高 级 : 

1 级 : 这 是 输入 x(n) 和 输 y(n) 过 滤器 的 最 顶层。 
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2 级 : FIR 滤波 器 的 顶层 可 用 一 个 简单 的 aox(n) 乘 法 器 构成 ， 随 后 是 多 个 
MAC 时 延 模块 ， 如 图 10- 13 中 的 阴影 框 所 示 。 

3 级 : 这 是 算法 运算 层 ， 由 乘法 、 加 法 和 时 延 模块 组 成 。 

4 级 : 运算 模块 可 细 分 到 更 低层 ， 执 行 的 位 级 运算 通常 与 FPCA 不 相关 ， 除 
非 设 计 者 用 加 法 器 和 LUT 构建 乘法 器 。 
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图 10-13 FIR 实例 


这 种 设计 的 另 一 思路 是 将 FIR 操 
作 的 避 放 到 简化 架构 ， 即 硬件 模块 被 ，， 
重用 于 过 滤器 内 的 不 同 操作 ， 如 图 
10-14 所 示 。 在 本 实例 中 ， 所 有 的 
MAC 运算 在 一 组 乘法 器 和 加 法 器 模块 
中 执行 。 多 路 转换 器 用 于 控制 来 自 
MAC 运算 的 输出 和 返回 算术 模块 的 数 
据 流 。 操 作 单个 单元 的 技术 问题 超出 
本 章 的 范围 ， 详 见 第 8 、9 章 。 
对 硬件 简化 程度 的 选择 取决 于 应 
用 的 性 能 需求 。 对 于 同一 实例 ， 我 们 
可 以 提供 数据 来 对 未 经 硬件 简化 的 例 ín 
子 和 单 _- MAC 单元 的 例子 作 性 能 比 
较 。 图 10-15 所 示 为 6 级 FIR 的 例子 ， acd S 
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时 钟 周期 ^ à 
"S Set E re m S fA vn 
乘法 时 延 pat 
2 个 时 钟 周期 ME 输出 时 延 7 个 时 钟 周期 
一 个 新 的 输入 x(n) 能 够 在 每 个 时 钟 周期 输入 


图 10-15 6 级 FIR 时 延 实例 


这 个 例子 的 目的 在 于 ，MAC 单元 内 的 乘法 和 加 法 模块 的 时 延 分 别 为 2 个 和 1 
个 时 钟 周 期 。 这 些 时 延 是 由 于 流水 线 被 置 于 模块 内 ， 并 可 用 FPCA 实现 。 运 算 模 
块 内 的 流水 线 阻 断 由 图 10- 15 的 斜 线 表示 。 由 于 算术 模块 内 的 时 延 ， 附 加 流水 线 
切割 被 标记 ， 并 用 于 电路 的 时 间 重 设 和 正确 地 调度 模块 中 的 运算 。 

该 图 中 的 数字 表示 已 执行 操作 的 时 钟 周 期 。 例 如 ， 由 于 乘法 器 的 时 延 ， 在 两 
个 时 钟 周期 后 ， 可 算出 cox(z) 。 由 于 该 算法 时 延 加 上 乘法 器 的 时 延 ， 三 个 时 钟 
周期 后 ， 可 算出 a x (n -1)。 这 些 值 需要 进行 整合 。 然 而 ， 匹 配 aox (n) 和 
a, x(n 一 1) 的 结果 的 调度 ，aox(n) 需 要 再 延迟 一 个 时 钟 周期 ,这 在 第 8 章 有 详 
述 。y(n) 的 输出 结果 总 时 延 是 7 个 时 钟 周期 。 换 而 言 之 ,y(n) 是 在 x(n) 输 入 到 
滤波 器 的 7 个 时 钟 周期 后 输出 ， 并 在 每 一 个 后 续 时 钟 周期 都 有 一 个 新 的 结果 。 再 
一 次 的 ，FIR 操作 被 几 个 MUX 映射 到 一 个 MAC 单元 。 这 意味 着 所 有 的 操作 需要 
调度 适当 ， 使 得 它们 在 正确 的 时 间 执 行 正确 的 输入 。 算 术 单 元 的 时 延 同 理 ， 这 部 
分 在 第 8.6.2 节 提 到 过 。 同 样 的， 选择 恰当 的 体系 结构 能 带 来 性 能 需求 、 面 积 和 
时 序 标准 的 平衡 。 


10.5 了 IP 核 集 成 
成 功 的 设计 重用 的 一 个 关键 是 用 户 系统 设计 内 的 IP 核 整合 。 这 通常 是 开发 


中 的 难点 。 之 前 的 调查 (Chiang 等 ”2001，Gajski 2000, Moretti 2001) 已 经 
突出 强调 了 这 些 问题 ， 而 男 一 些 人 已 在 试图 规范 这 一 过 程 ( Bimbaum 2001, 
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Birnbaumand Sachs 1999, Coussy 等 2002, 2006, 2007), 

为 了 实现 把 IP 核 成 功 融入 当前 的 设计 项 目 ， 必 须 采用 某 些 设计 战略 ， 使 这 
个 过 程 尽 可 能 顺利 。10. 5. 1 节 突 出 了 可 能 会 遇 到 的 一 些 缺 隐 ， 并 提供 了 一 些 来 
自 公 司 内 部 或 外 部 设计 团队 的 IP 核 处 理 指导 。 

可 能 需要 加 以 解决 的 考虑 因素 之 一 是 ， 源 IP 组 件 是 否 来 自 外 部 源 ， 或 是 同 
一 个 公司 或 组 织 的 不 同 部 门 。 成 功 的 公司 内 部 IP 使 用 需要 足够 多 的 库 和 代码 管 
理 结构 。 从 其 他 的 设计 团队 引入 的 中 组 件 ， 不管 是 跨 公 司 还 是 公司 内 部 ， 往 往 
会 成 为 减缓 系统 级 设计 中 重用 设计 策略 的 主要 障碍 。 


10. 5.1 设计 问题 


通过 客观 考虑 可 能 的 应 用 前 景 ， 使 开发 流水 线 可 以 从 前 期 的 基本 工作 演进 中 
获得 更 大 的 成 功 。 如 果 从 最 开始 就 纳入 重用 设计 ， 则 其 后 的 函数 库 设 计 可 从 最 初 
设计 中 得 到 惊人 的 好 处 。 总 结 为 : 

1) 需要 确定 将 有 益 于 未 来 的 发 展 的 部 分 设计 。 

2) 可 能 的 应 用 前 景 有 什么 ? 

3) 研究 未 来 的 产品 路 线 图 。 

4) 有 从 同一 个 的 种 子 开发 一 系列 产品 的 可 能 性 吗 ? 

5) 较 大 设计 如 何 被 分 为 便于 管理 的 可 重用 部 分 ? 

6) 查找 现 有 的 粒度 水 平 ， 即 有 任何 先前 的 IP 可 以 提供 起 始 水 平 的 开发 吗 ? 

1. 外 部 下 

外 源 IP 的 限制 因素 之 一 是 可 信 度 不 高 。IP 可 以 被 分 为 不 同 的 等 级 ， 一 颗 星 
表示 此 核 通过 仿真 验证 ， 三 颗 星 级 表示 通过 技术 模拟 也 就 是 门 级 仿真 验证 ， 最 
后 ， 五 颗 星 表示 IP 核 通过 了 实施 验证 (Chiang 等 2001), ， 可 信 度 最 高 。 

FPGA 供应 商 与 P 设计 公司 合作 ， 为 自己 设备 上 的 应 用 提供 函数 库 ， 这 给 用 
户 带 来 了 一 定 程度 的 可 信和 度 。 对 于 FFGA， 核 的 可 靠 性 方面 不 似 ASIC 那 般 关键 ， 
但 仍 很 重要 。 在 把 IP 集成 到 用 户 产品 上 时 浪费 的 时 间 ， 对 该 项 目的 成 功 至 关 
ae,  . 
以 下 问题 可 以 帮助 确定 IP 供应 商 的 可 靠 性 : 

1) 先前 应 用 中 的 核能 否 用 于 其 他 用 户 ? 

2) 公司 供应 用 户 指南 和 数据 文档 吗 ? 

3) 是 否 为 此 核 提 供 验 证 平台 和 足够 的 、 合 适 的 测试 数据 ? 

4) 公司 是 否 提 供 集 成 支持 ， 这 会 导致 额外 的 花 销 吗 ? 

2. 内 部 下 . 

对 于 那些 在 只 有 一 个 工作 地 点 的 小 公司 ， 共 享 和 分 发 内 部 IP 将 会 非常 简单 。 
然而 ， 对 于 所 处 时 区 和 物理 距离 跨度 较 大 的 大 公司 ， 这 会 变 得 极为 困难 。 此 外 还 





第 10 章 FPGA 的 复杂 DSP 核 的 设计 233 


有 工时 资源 的 竞争 。 项 目 领导 并 不 乐意 他 们 的 团队 花 时 间 去 把 遗留 代码 集成 到 另 
一 组 的 开发 上 。 时 间 资 源 需要 在 公司 的 层面 上 被 认 知 并 评估 来 支持 这 种 合作 。 

公司 介绍 IP 核 的 设计 结构 ， 并 在 顶层 设计 上 给 予 指导 是 恰当 的 。 规 定 一 个 
IP 核 的 标准 格式 是 有 价值 的 ， 并 使 其 更 易于 集成 。 一 旦 核 被 验证 可 行 ， 则 有 必 
要 形成 一 个 中 央 存 储 库 ， 使 公司 完全 访问 IP. KERMA A CAA SHES 
管理 方法 来 保护 他 们 的 产品 。 


10.5.2 接口 标准 化 和 质量 控制 指标 


使 用 IP 的 一 个 主要 限制 因素 是 集成 问题 ， 另 一 个 是 开发 人 员 可 能 对 第 三 方 
IP 缺乏 信心 。 本 节 将 对 一 些 标准 进行 简单 总 结 。 

虚拟 插 权 接口 联盟 (Virtual Socket Interface Alliance, VSIA) 是 一 个 成 立 于 
1996 年 的 标准 组 织 ， 用 来 支持 电子 行业 中 重用 IP 核 开 发 设计 的 标准 化 。 这 是 一 
个 联盟 ， 代 表 SoC 产业 的 一 个 截面 。11 年 之 后 ,该 组 织 停止 运作 。 在 这 段 时 间 
H, VSIA 建立 了 20 多 个 标准 ， 并 用 收费 很 少 甚至 免费 将 规范 和 技术 文件 分 发 给 
成 员 。 他 们 已 经 将 标准 和 工作 交 给 其 他 发 展 IP 和 电子 产品 的 标准 组 织 来 处 理 ， 
如 IEEE, 

他 们 特别 成 功 的 项 目 是 VSIA IP 质量 ( Quality IP, QIP) 指标 ( VSIA 
2007) 。 此 免费 文档 涵盖 了 集成 第 三 方 P 时 的 主要 设计 考虑 。 它 对 供应 商 质量 提 
供 了 技术 指标 ， 同 时 还 有 软 核 、 硬 核 和 验证 IP 的 指标 。 出 版 后 的 数 年 里 ， 它 被 
很 好 地 建设 起 来 起 来 并 广泛 地 为 开发 者 采用 。 | 

除了 支持 文档 ，QIP 还 可 以 由 一 个 Excel 电子 表格 实现 ， 用 户 插 入 他 们 考虑 
使 用 的 产品 和 供应 商 的 特定 信息 和 参数 。 电 子 表格 由 许多 单独 的 表 组 成 ， 一 个 是 
对 供应 商 的 评价 ， 一些 是 软 全集 成 ， 男 一 些 是 全 开发 。 下 面 列 出 了 一 些 询问 供 
应 商 的 问题 : i 

过 程 : 

IP 的 开发 过 程 被 定义 和 记录 了 吗 ? 

是 否 有 用 户 满意 度 评估 ， 并 且 会 一 直 继续 吗 ? 

验证 : 

需求 是 否 改变 了 IP 的 定义 、 记 录 和 后 续 工 作 的 进程 ? 

是 否 有 详细 的 协调 测试 计划 ， 此 文件 可 以 提供 给 用 户 吗 ? 

此 IP 核 是 否 在 实际 生产 环境 中 被 使 用 ? 

版 本 控制 : 

修订 控制 计划 和 相关 方针 是 否 完全 文档 化 ? 

IP 的 使 用 截止 日 期 是 否 会 提前 通知 (至 少 6 个 月 )? 

分 布 : 


234 信号 处 理 系统 的 FPCGA 实现 





如 果 IP 可 交付 成 果 的 支持 改变 ， 用 户 是 否 会 收 到 通知 ， 用 户 会 收 到 新 的 IP 


么 ? IP 的 新 特点 或 新 版 本 可 用 吗 ? 


一 致 性 : 

IP 和 相关 联 的 交付 结果 所 提供 的 标准 一 致 吗 ? 

支持 : 

使 用 中 有 问题 报告 措施 和 相应 的 程序 吗 ? 

可 以 在 购买 IP 之 前 先 测试 评估 吗 ? 

XH . 

文档 是 否 涵盖 把 IP. 成 功 集成 到 一 个 系统 的 所 有 必要 方面 ? 
供应 商 的 可 信和 度 : 

该 公司 已 经 存在 了 5 年 以 上 吗 ? 

这 里 有 超过 50 个 员工 吗 ? 

可 以 提供 客户 参考 吗 ? 

这 是 QIP 电子 表格 细节 问题 的 一 个 子 集 。 关 于 软 IP 集成 指标 的 问题 如 下 : 
1) IP 集 成 是 由 开发 团队 之 外 的 其 他 人 员 做 的 吗 ? 

2) 有 培训 吗 ? 

3) 它 是 FPGA 或 还 是 集成 电路 ? 

4) 有 足够 的 文档 吗 ? 

接口 信息 ， 实 例 化 指导 ; 相关 技术 区 域 和 力量 评估 ; 验证 方法 ; 可 交付 成 果 


清单 。 


5) 集成 : 

构建 环境 : 提供 脚本 吗 ?” 可 以 扫描 插入 脚本 吗 ? 可 移植 到 其 他 设计 工具 吗 ? 
这 个 列表 还 远 远 没 有 完成 。QIP 问 问题 事 无 巨细 。 

软 IP 开发 表 对 计划 开发 一 个 IP 核 是 很 有 用 的 指南 。 它 可 以 作为 一 个 提供 优 


质 代 码 的 清单 ， 并 代表 这 一 章 所 讨论 的 大 部 分 内 容 。 这 是 一 些 最 相关 的 评论 : 


订 


的 


1) 是 否 所 有 的 时 延 值 都 是 作为 参数 传递 ， 而 不 是 硬件 编码 ? 

2) 如 位 宽 、 寄 存 器 地 址 等 值 能 用 参数 代表 吗 ? 

3) 信号 命名 标准 有 一 致 性 吗 ? 

4) Verilog: “define” 引 用 保存 于 一 个 文件 吗 ? 

5) VHDL: 时 延 常数 是 从 一 个 包 获 得 值 吗 ? 

6) 综合 语句 功能 覆盖 率 能 达到 98% 3? 

7) 回归 测试 有 日 志文 件 脚本 吗 ? 

QIP 文档 是 一 个 非常 有 用 的 工具 ， 因 此 得 到 了 广泛 的 应 用 。 它 一 直 在 不 断 修 
如 今 VSIA 已 经 把 它 交 给 了 IEEE， 它 仍 会 继续 发 展 下 去 。 

VSIA 有 一 个 全 保护 工作 小 组 ， 目 前 参与 到 IP 核 加 密 标准 的 开发 中 ， 还 有 
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现 有 的 软 、 硬 标签 标准 。 商 业 实 体 ChipEstimate ( www. chipestimate. com) 及 De- 
sign 和 Reuse (www. designreuse. com) ， 受 益 于 VSIA 的 IP 传输 规范 的 使 用 。 


10.6 ADPCM IP 核 的 例子 


ADPCM 是 ITU 定义 的 众多 语音 压缩 算法 中 的 一 种 。 对 于 从 数字 无 绳 电话 到 
电话 网 络 的 众多 应 用 ,这 是 一 个 受 欢迎 的 语音 压缩 应 用 程序 。 它 提供 了 把 
64kbit/s 的 压缩 脉冲 编码 调制 (Pulse Code Modulation, PCM) 音频 信道 压缩 为 
40kbit/s, 32kbit/s, 24kbit/s 或 16kbit/s ADPCM 语音 信道 ， 反 之 亦 然 。32kbit/s 
的 标准 操作 速度 提供 了 高 质量 的 压缩 语音 ， 相 比 PCM 没有 明显 的 损失 。 表 10-2 
给 出 了 PCM 和 ADPCM 的 关键 ITU 标准 的 概述 。 

表 10-2 PCM n ADPCM 的 关键 ITU 标准 的 概述 





压缩 标准 HR (kbit/s) 特点 
从 14 位 或 13 位 统一 PCM 到 8 位 对 数 PCM 的 转换 使 用 A 
PCM (G. 711) 64 RE pe STE], AGEREM SkHz 时 ，8 位 代表 采样 数 
据 速 率 从 96kbits PRE] 64kbit/s, 

此 标准 给 予 6.723 和 G. 721 标准 。 增 加 了 可 只 使 用 2 位 
来 编码 不 同 信号 的 灵活 性 ， 因 此 数据 速率 为 16kbit/s。 
(16kbit/s 过 载 信道 用 DCME 传送 声音 ) 。 

此 标准 提供 了 64kbivs PCM 信道 到 速率 可 变 (40, 32, 
24, l6kbit/s) 嵌入 式 ADPCM 信道 的 转换 ， 此 标准 被 用 于 
允许 不 同 信号 被 一 系列 核心 位 和 增强 位 来 表示 。 核 心 位 是 
转换 的 必要 部 分 。 转 换 过 程 中 ， 增 强 位 拥塞 的 出 现 可 能 会 





ADPCM (G.726) 40, 32, 24, 16 


ADPCM (G. 727) 40, 32, 24, 16 








由 于 可 使 用 ADPCM 的 应 用 程序 的 变化 ， 开 发 一 个 符合 各 种 需求 的 设计 是 一 
个 难题 。 图 10- 16 所 示 为 从 PCM 输入 的 APDCM 基本 结构 压缩 。APDCM 压缩 问 
题 的 症结 所 在 是 使 用 以 前 的 语音 样本 对 当前 的 样本 做 自 适 应 预测 。 一 旦 计算 出 预 
测 样 本 要 从 当前 实际 样本 中 减 去 ， 则 只 有 这 个 错误 信号 被 量化 和 编码 传播 。 然 后 
在 解码 端 ， 接 受 方 执行 相反 的 过 程 重 新 生成 实际 的 语音 样本 。 

这 个 技术 依赖 于 语音 提供 了 某 种 程度 的 伪 平 稳 性 的 事实 。 也 就 是 说 ， 在 大 约 
20ms 的 短 时 间 内 ， 信 号 的 统计 数据 基本 未 变 。 这 人 允许 自 适 应 预测 用 于 ADPCM, 
其 他 ADPCM 的 ITU (6.726) 标准 有 不 同 的 量化 器 表 来 执行 40，32，24 或 
16kbit/s 编码 ， 并 类 似 地 解码 。 或 者 ， 可 以 使 用 一 个 用 于 所 有 四 个 压缩 率 
(ITUG. 727) 的 量化 表 ， 用 16kbit/s, 24kbit/s, 32kbit/s 数据 率 量化 表 作 为 
40kbit/s 数据 率 表 的 子 集 。 然 而 ， 此 优化 需要 稍微 降低 一 点 信 噪 量化 比 。 


236 信号 处 理 系统 的 FPCA 实现 





输入 64kbit/s 信号 信号 输出 32kbit/s 


PCM 信 号 | 转化 为 均匀 ADPCM 信 号 
PCM 








Ses (7) 


10-16 ADPCM 编码 的 基本 结构 


正如 在 数据 编码 〈 见 图 10-16) 和 解码 〈 见 图 10-17) 里 看 到 的 ， 某 些 组 件 
成 分 一 致 ， 并 可 以 用 来 执行 这 两 个 任务 ， 因 此 有 了 开发 具有 双重 功能 的 单一 设备 
的 机 会 。 另 外 ， 独 立 模 块 可 以 开发 编码 和 解码 功能 。 通 过 扩展 内 存 和 寻 址 逻辑 ， 
或 实现 多 个 编码 器 和 译 码 器 模块 实例 化 ， 可 以 实现 可 扩展 性 。 


输入 32kbit/s 
ADPCM 信 号 


输出 64kbit/s 
PCM 信 号 





图 10-17 64kbit/s 自 适 应 应 差分 式 PCM 解码 


ADPCM 的 IP 核 应 用 考虑 如 下 : 

1. 所 支持 应 用 范围 

从 简单 的 DECT 手机 到 如 OC-192 的 高 端 电 信和 系统， 应 用 范围 已 经 扩大 到 支 
持 超过 1000 个 语音 频道 。 多 频道 核 计 算 模 块 的 使 用 需要 纳入 可 扩展 性 〈 见 图 
10-18) 。 同 样 ， 多 个 核心 计算 块 的 实例 化 可 能 需要 来 满足 积极 的 信道 要 求 。 请 
注意 语音 已 设置 对 数据 率 和 可 交付 的 采样 率 的 要 求 。 只 有 两 样 都 符合 才 可 以 使 
用 。 添 加 额外 信道 需要 关键 硬件 可 以 管理 计算 ， 满 足 实 时 语音 的 需求 。 


第 103 FPGA 的 复杂 DSP 核 的 设计 237 





2. ADPCM 标准 的 变化 

ACPCM 和 PCM 标准 有 很 多 变 体 ， 其 中 一 些 在 表 10-2 列 出 ， 并 如 图 10-9 所 
示 。 支 持 这 些 标 准 的 广泛 变化 是 明智 的 ， 因 为 这 将 增加 普遍 适应 性 。 例 如 ，PCM 
有 两 个 变 体 ， 被 称 作 A EA u HE. A 律 是 欧洲 标准 , 几 律 是 美国 标准 。 

3. 支持 一 系列 FPGA 器 件 和 /或 ASIC 技术 

通过 加 入 代码 或 参数 ， 同 一 个 核 设计 可 重新 面向 不 同 的 技术 ， 这 使 设计 在 面 
向 ASIC 之 前 先 在 FPCGA 上 做 出 原型 。 这 同样 允许 了 不 保障 ASIC 设计 开销 的 低产 
量 实现 。 

同样 ， 这 对 新 兴 ASIC 铸造 厂 的 快速 再 发 展 能 力 极 为 有 益 。 

4. 支持 一 系列 性 能 标准 的 能 力 

语音 压缩 应 用 的 变化 造成 了 需求 功能 的 大 跨度 。 对 于 一 些 应 用 ， 例 如 移动 通 
信 ， 功 率 考 虑 和 芯片 面积 可 以 作为 设备 的 推动 标准 。 对 于 其 他 应 用 ， 主 要 目的 可 
以 是 一 个 高 数据 率 系统 。 

5. 可 扩展 结构 

要 创建 支持 如 此 大 范围 设计 标准 的 灵活 性 ， 需 要 开发 一 个 可 扩展 结构 ， 提 高 
物理 硬件 的 层次 来 匹配 规格 需要 。 推 动 可 扩展 结构 的 重点 有 : 

1) 需求 数据 率 ; 

2) 面积 限制 ; 

3) 时 钟 速率 限制 ; 

4) 功率 限制 。 

图 10-18 所 示 为 可 扩展 设计 的 可 能 结构 。 

6. 时 钟 速率 性 能 

系统 所 需 时 钟 速率 来 自 于 结构 设计 和 目标 技术 。 指 定 系统 要 求 使 设计 师 对 目 
标 技术 作出 选择 ， 并 便于 在 如 功 耗 和 面积 的 其 他 性 能 标准 作出 折衷。 

7. 流水 线 级 别 

所 需 时 钟 速率 可 依赖 于 设计 内 的 流水 线 以 减少 关键 路 径 。 流 水 线 内 的 设计 子 
模块 的 选择 会 对 性 能 影响 很 大 。 例 如 ， 考 虑 一 个 既 执 行 编码 和 又 执行 解码 的 功能 
模块 ， 换 句 话 说 ， 它 可 以 执行 全 双 工 操作 。 语 音 样本 为 8kHz。 多 信道 应 用 的 所 
有 信道 的 全 部 编码 和 解码 的 计算 都 需要 在 下 一 个 样本 前 ， 也 就 是 在 1/8000s 
(0.000125s) 内 进行 。 对 于 最 大 时 钟 频率 为 300MHz 的 示例 模块 ， 在 0. 000125s 
时 限 内 会 有 37500 个 时 钟 周 期 。 在 此 示例 中 ， 如 果 认 为 全 双 工 操作 需要 20 个 时 
钟 周期 ， 那 么 可 能 的 通道 数 为 (300000000 +8000) +20 =1875 个 双向 信道 。 那 意 
味 着 1875 个 编码 和 1875 个 解码 信道 。 

假设 模块 的 通道 更 多 ， 达 到 了 500Hz 时 钟 速率 ， 每 个 双 工 操作 的 循环 次 数 
增加 25 次 ， 则 可 估计 双 通 道 的 数量 为 (500000000 + 8000) +25 =2500。 
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图 10-18 和 图 10-19 所 示 为 参数 化 的 ADPCM IP 核心 需要 支持 的 应 用 
范围 。 





N^ N^ 
ADPCM ADPCM 
具有 双重 功能 。 信道 taa 
的 单一 编 解 码 
核心 M^ M^ 
PCM ADPCM 
信道 信道 
双 工 操作 
N^ N^ 
ADPCM PCM 
编码 解码 分 离 信道 信道 
式 核心 
PCM ADPCM 
信道 信道 
单 工 操作 
N* 
ADPCM EU 
信道 信道 
支持 高 信道 数 
目的 复数 实例 
M 个 M^ 
PCM ADPCM 
信道 信道 





图 10-18 多 信道 ADPCM 
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ADPCM 标 准 
可 支持 的 数据 速率 : 40,32,24,16 kbit/s 
Ge 





24 kbit/s 
16 kbit/s 


个 体 量化 表 单一 量化 表 
PCM 标 准 ADPCM 扩 展 
G.711 G.726a, G.727a 


A 律 
A 律 13 位 对 数 PCM 
h 律 13 位 对 数 PCM 
uft A 律 14 位 均匀 PCM 


图 10-19 PCM 和 ADPCM 的 区 别 





10.7 FPGA 的 人 P 核 


FPGA 公司 早 些 时 候 就 已 确认 IP 核 的 重要 性 ， 协 助 制定 使 用 他 们 的 技术 解决 
方案 。 出 于 这 个 原因 ， 他 们 开始 发 展 自己 内 部 的 IP PE, 但 很 快 发 现 与 第 三 方 合 
作 关 系 的 好 处 ， 因 为 双方 都 能 受益 ,一 方面 能 从 IP 核 中 获得 收入 ; 另 一 方面 是 
IP 的 可 用 性 简化 了 客户 解决 方案 。 两 大 主要 供应 商都 在 运作 IP 程序 ，Xilinx 用 
Alliance 程序 ，Altera 用 Megafunctions Partners 程序 ; Actel 有 CompanionCore 联 
盟 计 划 ，Lattice 有 ispLeverCORE™ 连接 。 在 任何 情况 下 ,公司 必须 满足 大 量 标 
准 ， 成 为 各 自 卫 程序 的 成 员 。 

表 10-3 和 表 10-4 给 出 了 可 用 于 处 理 器 、 接 口 、DSP 和 通信 的 第 三 方 IP 的 
全 部 范围 。 从 表 中 可 以 看 出 ， 软 核 可 用 于 至 少 一 个 形式 的 微 处 理 器 或 微 控制 器 。 
大 范围 的 接口 技术 是 极其 重要 的 ， 使 FPGA 能 够 实现 电信 方面 的 应 用 。DSP 列表 
包含 了 这 本 书 中 列 出 的 大 部 分 功能 ， 以 及 如 JPEG 和 MPEG 的 复杂 系统 。 
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当然 ， 就 像 本 章 强调 的 ， 技 术 提 供 有 所 变化 ， 一 些 工作 正在 向 最 新 技术 的 核 
心 迁 移 。 此 外 ,一 些 正 核 可 能 不 再 有 组 件 的 积极 支持 。 例 如 ，Amphion 被 科 胜 
讯 收购 ， 他 们 虽 仍 会 提供 加 密 和 加 密 内 核 ， 但 这 不 再 是 核心 业务 。 
表 10-3 Altera 全 部 可 用 的 第 三 方 IP 














技术 领域 可 使 用 下 核 
Amm NIOSII、 基 于 ARM Cortex Ab 3 2$, 2901, C68000 # Ab E 器、 
CZ80CPU, R8051 微 控制 器 、DF6811 CPU 微 控 制 器 
DDR/DDR2 RAM, 32/64 位 PCI, PCI 表示 、 快 速 L/O, DMA, CAN, 
接口 UART, DC, FJK LAK I, 10/100/1000/5 的 以 太 网 、ATA - 4/5, 
AMBA, USB 
FIR 滤波 器 、FFT、 里 德 所 罗 门 解码 器 /编码 器 、 译 码 器 、AES 和 DES 
DSP 加 密 / 解 密 、SHA、Turbo 编码 、JPEG #% xt, ADPCM, H264, JPEG, 
DCT/IDCT、DWT、PPL、 数 字 调 制 器 的 接收 器 、CCIR 编码 器 /解码 器 
A CRC 编译 、POS - phy，UTOPIA ，SONeTVSDH 、 以 太 网 2 层 、 千 兆 以 太 


网 MUX、ATM 格式 /变形 、AA5 、HDLC、SPI -4 








SHA, MD5 Hasing, AES Helion Tech. Limited Hidea Sol. Co. , 
AES 加 密 / 解 密 、TDES 、RSA Ltd, CAST, Inc. 

















加 密 / 解 密 





H. 264/AVC 译 码 、 分 块 Nero AG, Global Dig. Tech. Elecard 
H. 264/ AVC 分 块 JPEG 编码 Dev. CJSC CAST Inc. , Barco. Silex 


样本 速率 转化 为 32 位 
APS3 处 理 器 








音频 处 理 Coreworks CAST, Inc. 





SDRAM 控制 Flash, SD 存储 控制 器 
DDR 控制 器 


Array Electronics Eureka Technology 


计算 机 串 行 ATA 8 位 高 速 控制 器 HCL Tech. Ltd. ，CAST Inc. ASICS 
SONET/SDH 帧 调节 器 World Ser. Ltd CAST Inc. 
数字 封装 从 设备 Xelic, Inc. Beckhoff Auto. GmbH 
电话 通信 ADPCM 控制 器 Pinpoint Sol. Inc. MorethanIP 
以 太 网 MAC GmbH Sarance 


HiGig Interlaken 互 连 





Helion Tech. Ltd 
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10.8 总 结 


本 章 提供 了 一 些 IP 核 的 关键 问题 的 概述 ， 并 着 重 于 FPGA, Wi S IP 核 和 
重用 设计 做 法 背后 的 动机 ， 同 时 讨论 了 不 断 扩大 的 设计 生产 力 差 距 。 这 一 点 在 
ITRS 2005 报告 (半导体 行业 协会 2005) 中 被 强调 ， 说 明了 “为 了 避免 成 倍增 
长 的 设计 成 本 ， 大 部 分 芯片 设计 的 功能 规模 必须 大 于 前 一 代 技 术 的 两 倍 " 。 为 
此 ， 重 用 设计 是 必要 的 。 出 于 这 个 原因 ， 我 们 已 经 看 到 IP 行业 的 显著 增长 。 

在 某 种 程度 上 ， 随 着 高 新 技术 的 发 展 ， 第 8 章 描述 的 许多 技术 ， 已 经 成 为 这 
样 的 技术 开发 的 基石 。 主 要 目标 是 开发 方法 和 源 于 一 种 电路 架构 的 流 ， 当 把 算法 
描述 传输 到 硬件 时 ， 规 律 和 缩放 等 被 自然 捕获 。 然 而 ， 这 并 不 只 是 出 于 这 个 原 
因 ， 第 12 章 会 致力 于 RLS 过 滤器 的 IP 核 开 发 。 

IP 核心 问题 已 经 从 简单 的 算术 核 的 创建 ， 发 展 到 系统 组 件 的 创建 ， 如 FFT, 
DCT 和 DWT 核 ， 直 到 如 JPEG 和 MPEG 编码 器 等 复杂 系统 的 开发 ， 因 此 这 带 来 
了 设计 问题 。 第 8 章 的 方法 成 功 地 创建 了 复杂 组 件 的 高 效 体系 结构 ， 像 FIR 滤波 
器 、DCT 核 等 ， 但 第 9 章 很 快 就 证 明了 这 对 系统 的 描述 是 不 充分 的 。 因 此 ， 设 计 
问题 已 经 发 生 了 变化 ， 随 着 问题 的 不 断 发 展 ， 我 们 需要 开发 更 高 级 的 技术 。 然 
而 ， 任 何 未 来 的 设计 流 也 必须 尝试 纳入 IP 核 ， 因 为 这 是 不 能 被 忽视 的 大 量 设计 
工作 。 因 此 ， 下 一 章 目 的 是 解决 这 个 问题 。 
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第 11 章 基于 模型 的 异 构 FPGA 设计 


11.1 引言 


针对 这 一 点 的 材料 明确 指出 了 基于 FPGA 的 DSP 系统 更 高 级 别 表示 的 转变 要 
求 和 对 此 进行 优化 的 需要 。 第 6 章 的 材料 涵盖 的 较 低级 别 的 设计 技术 旨 在 生产 高 
效 的 FPGA 应 用 电路 架构 。 这 些 设 计 技 术 涵 盖 的 不 只 是 选择 如 何 把 内 存 要 求 映射 
到 LUT fI Ask RAM 资源 ， 还 有 对 性 能 的 影响 ， 也 使 用 分 布 式 算法 和 可 重 构 
MUX 来 降低 硬件 成 本 。 然 而 ， 对 于 粗 粒 度 异 构 平 台 的 FPGA 技术 演变 ， 即 由 处 
理 器 和 涉及 专用 乘 数 和 MAC 单位 的 复杂 DSP 块 组 成 ， 已 经 否定 了 很 多 后 来 技术 
的 影响 。 

第 8 章 的 材料 和 第 9 章 的 后 续 工 具 开 发 工作 ， 说 明了 如 何 探索 DSP 系统 的 
并 行 和 流水 线 水 平 的 SFG 和 DFG 描述， 而 不 是 较 低级 的 基于 HDL 的 电路 结构 。 
它 表 明 在 FPGA 技术 可 行 的 处 理 和 内 存 资源 的 考虑 下 ， 如 何 调整 并 行 和 流水 线 的 
水 平 至 最 好 地 匹配 应 用 的 性 能 需求 。 这 是 假设 SFG 表征 有 效 表示 了 一 个 DSP 系 
统计 算 的 需求 ， 但 这 不 是 个 案 。 例 如 ， 一 个 系统 应 用 需要 不 同位 置 的 大 量 FIR JE 
波 器 ; SFG 的 限制 需要 每 个 滤波 器 有 单独 的 硬件 ， 除 非 在 SFG 表征 中 已 显示 创 
建 硬 件 共享 。 它 不 应 该 是 如 何 描述 系统 的 问题 ， 而 是 用 户 可 以 调查 的 系统 优化 
问题 。 

因此 ， 显 然 需要 比 SFG 更 高 层次 的 表征 来 允许 用 户 调查 系统 级 分 区 和 系统 
级 优化 的 影响 ， 如 只 是 被 提出 ， 仍 有 待 探 索 的 硬件 共享 。 这 种 方法 形成 了 基于 计 
算 MoC 大 趋势 的 一 部 分 。MoC 被 用 来 表达 系统 特点 ， 如 时 效 性 ， 即 该 系统 如 何 
处 理 时 间 、 并 发 性 、 活 性 、 异 质 性 、 接 口 和 反应 性 (Lee 和 Sangiovanni-Vincen- 
telli 1998) 的 概念 。 他 们 试图 定义 一 个 系统 如 何 运 转 ， 并 与 真实 和 模拟 世界 互 
动 的 原理 。 为 严格 模拟 不 同类 型 的 钥 入 式 系 统 提 出 了 大 量 的 模型 。 为 特定 类 型 的 
系统 建 模 ， 应 该 基于 该 系统 的 具体 特点 来 确定 合适 的 MoC。 例 如 ，DSP 系统 的 一 
般 特征 可 以 描述 系统 输入 数据 流 的 重复 密集 计算 。 因 此 ，DSP 系统 开发 人 员 经 常 
在 这 一 选择 上 得 出 相同 的 结论 ， 并 使 用 数据 流 MoC (Najjar 等 ”1999)。 本 章 将 
概述 使 用 最 广泛 的 数据 流域 及 舰 入 式 DSP 系统 的 系统 级 设计 和 优化 的 方式 。 

本 章 将 给 出 可 以 用 于 创建 基于 FPGA 的 DSP 系统 的 详细 数据 流 MoC 分 析 ， 
并 用 创建 此 类 系统 功能 和 使 用 恰当 例子 进行 演示 来 说 明 。11.2 节 为 数据 流 建 模 
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概述 ， 将 重点 介绍 一 些 不 同 的 类 型 ， 特 别 涵盖 了 基于 FPGA 的 DSP 系统 快速 实现 
的 挑战 。11. 3 THRE DFG 描述 的 变化 如 何 对 租 入 式 系 统 应 用 产生 重大 影响 。 
在 11.4 节 中 ,将 给 读者 使 用 流水 线 核 的 系统 描述 的 综合 ， 且 无 需 重新 设计 核 。 
11. 5 节 将 概述 必要 的 控制 和 封装 核 的 设计 。 归 一 化 格 型 滤波 器 和 固定 波束 形成 
器 的 两 个 例子 将 被 用 于 11.6 节 的 方法 演示 。 最 后 是 11.7 节 的 总 结 。 


11.2 数据 流 建 模 及 快速 实现 基于 FPGA 的 DSP 系统 


最 受 欢迎 的 通用 数据 流 语言 源 于 卡 恩 进程 网 络 (Kahn Process Network, . 
KPN) 模型 (Kahn 1974) 。KPN 模型 描述 了 通过 单 向 FIFO 队列 进行 的 一 套 并 
行进 程 (或 “计算 站 ”) 通信 。 计 算 站 使 用 本 地 化 内 存 从 输入 行 读 取 数 据 符号 ， 
产生 一 个 或 所 有 输出 行 上 的 输出 。 在 DSP 系统 中 ， 符 号 通常 是 被 数字 化 的 输入 
数据 值 。 对 系统 的 连续 输入 生成 输入 数据 流 ， 促 使 计算 站 产生 系统 输出 数据 流 。 
KPN 总 体 结构 如 图 11-1 所 示 。 每 个 KPN 输入 样本 的 具体 计算 功能 重复 应 用 的 语 
义 ， 使 建 模 与 DSP 系统 性 能 达到 良好 匹配 。 

行为 者 /计算 站 


输入 数据 流 一 一 > | Ox 输出 数据 流 


一 输出 端口 


图 11-1 简单 的 KPN 结构 


在 数据 流 进程 网 络 (Dataflow Process Network, DPN) 模型 (Lee 和 Parks 
1995) 中 ，KPN 模型 增强 了 计算 站 (在 这 里 被 称 为 触发 器 ) 性 能 的 语义 。 触 发 
器 触发 序列 被 定义 为 特殊 类 型 的 卡 恩 进程 ， 称 作 数 据 流 进 程 ， 每 个 触发 器 都 表示 
输入 标记 到 输出 标记 的 映射 ， 以 及 输入 流 到 输出 流 的 继承 映射 。 一 套 触 发 规则 为 
每 个 触发 器 规定 了 如 何 及 何 时 进行 触发 。 具 体 来 说 ， 触 发 器 使 用 输入 符号 并 产生 
输出 符号 。 一 套 顺 序 触发 规则 为 每 一 个 触发 器 存在 ， 定 义 了 触发 器 可 能 会 触发 的 
输入 数据 条 件 。 为 了 给 出 DPN 描述 触发 器 如 何 触发 和 确定 性 通信 的 坚实 的 计算 
基础 ， 许 多 针对 这 个 主题 的 应 用 程序 的 相关 改进 已 被 提出 。 同 步 数据 流 (SDF), 
环 静 态 数据 流 (CSDF) 和 多 维 同 步 数据 流 (MSDF) 这 三 种 特定 变量 是 本 节 关 
键 。 现 概述 这 三 者 的 含义 。 
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11.2.1 SDF 


Lee 把 同步 数据 流 (Synchronous Dataflow, SDF) 系统 (Lee 和 Messerschmitt 
1987b) 定义 为 “我 们 可 以 预先 指定 调用 块 时 ， 每 次 输入 使 用 的 样本 数目 和 每 次 
输出 产生 的 样本 数目 ”的 系统 。 这 不 是 提供 一 般 MoC 定义 (Lee 和 Sangiovanni - 
Vincentelli 1998) 的 同步 性 定义 ; 然而 ， 它 人 允许 静态 系统 调度 的 派生 〈 即 在 编译 
时 生成 ) ， 其 重要 性 在 于 这 意味 着 可 产生 运行 时 耗 低 的 多 处 理 器 调度 的 派生 。 这 
是 数据 流 MoC 的 一 项 重大 进展 ， 为 数据 流 系 统 建 模 与 技术 实现 的 研究 主体 开辟 
了 道路 。 然 而 ， 由 于 SDF 禁止 依赖 于 数据 的 数据 流行 为 ， 因 此 获取 这 种 优势 就 
要 牺牲 表现 力 。 

SDF 图 中 每 一 个 触发 器 i 的 端口 j 都 有 
一 个 关联 立 值 坊 来 指定 触发 器 触发 端口 使 
用 /产生 〈 根 据 端口 方向 ) 的 符号 数目 。 此 
值 被 相 邻 的 端口 引述 ， 如 图 11-2 Pras. M 
SDF 中 所 有 端口 阔 值 统一 时 ， 此 图 被 认为 是 
同 质 的 , 或 是 单 速 率 DFG (Single Rate 11-2 简单 的 SDF 流程 图 
DFG, SRDFG), BM, DFG 称 为 多 速率 
DFG (Multi - rate DFG, MRDFG ) 。 

如 果 假 设 触发 器 7 连接 到 arci:， 在 触发 器 第 n 次 调用 中 ，xi(n) 是 产生 的 符号 
数目 ，y;(n) 是 使 用 的 符号 数目 ， 则 SDF 模型 可 以 用 拓扑 矩阵 厂 描 述 ( 见 式 
Ciel). 





Xi(n) 如 果 触 发 器 7 产生 arci 
y= -Yi(n) 如 果 触 发 器 7 消耗 arci (11-1) 
0 其 他 
证 明 DFG 一 致 性 的 一 个 关键 因素 是 满足 一 系列 平衡 方程 (Lee 1991) 。 触 发 
fit A 在 调度 迭代 中 触发 比例 为 gdA) ， 并 在 每 一 次 触发 中 产生 符号 ta, as B 
触发 比例 为 qcs) ， 并 在 每 一 次 触发 中 使 用 好。 如 果 4 连接 到 B， 则 在 调度 迭代 中 
FIFO 队列 返回 到 初始 状态 (Lee 和 Messerschmitt 1987a) ， 式 (11-2) 将 成 立 。 
把 图 中 的 每 一 个 are 的 方程 集中 起 来 ， 构 建 一 个 平衡 方程 系 ， 并 简写 为 式 
(11-3)。 在 式 (11-3) 中 ,重复 矢量 GH T MATA PREMERA, 8— 
个 触发 器 的 触发 数目 zi。 
q(A)tg 2 q(B)tg (11-2) 
Iq =0 (11-3) 
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11.2.2 CSDF 


环 静 态 数据 流 (Cyclo - Static Dataflow, CSDF) 模型 (Bilsen & 1996) 指出 
MRDFG 的 局 限 性 在 于 ， 其 仅 支 持 触发 之 间 恒 定 的 触发 器 触发 。 它 扩展 了 SDF 模 
型 ， 人 允许 触发 器 触发 的 周期 性 变化 ， 同 时 仍然 保持 静态 调度 功能 。 每 个 触发 器 的 
触发 活动 产生 由 每 个 触发 器 wv 的 7 触发， 序列 y=[f(1),f(2),…,f(P;)]， 都 
有 不 同 的 触发 规则 。?y; 是 触发 器 的 第 i( mod j) 个 触发 ， 
产生 反复 循环 的 触发 序列 。SDF 图 中 的 产生 和 使 用 标量 
值 都 被 替换 为 长 度 P 的 向 量 ， 且 定义 P; 为 触发 器 第 i 个 
端口 生产 /使 用 的 符号 数目 。 如 果 假 设 触发 器 j 连接 到 
arci， 第 一 次 n 调用 过 程 中 ，X'(n) 是 产生 的 符号 总 数 ， 
Y'(n) 是 使 用 的 符号 总 数 ，CSDF 拓扑 和 矩阵 古 的 方程 定义 
如 式 〔11-4) 。 图 11-3 为 CSDF 图 示例 ， 相 邻 端口 的 阔 值 图 13 简单 CSDF 





向 量 用 矩形 括号 括 了 起 来 。 流程 图 
Xi(P,) 如果 触发 器 ) 产生 arci 
PI;-(-Y(P,) 如 果 触 发 器 7 消耗 arci (11-4) 
0 其 他 
11.2.3 MSDF 


SDF 原子 标记 原则 意味 着 多 维系 统 (具有 多 维 符号 计算 ， 如 向 量 或 矩阵 ) 必 
须 使 用 一 维 流 在 图 上 铺 开 ， 此 限制 可 以 隐藏 数据 级 并 行 算法 。 为 了 克服 这 种 限制 ， 
SDF 模型 被 推广 到 多 维 同 步 数据 流 (Multidimensional Synchronous Dataflow, MS- 
DF) 。 初 期 工作 把 SDF 域 (Lee 1993a, b) 演变 成 矩形 点 阵 采 样 问题 ， 之 后 又 将 技 
术 扩 展 为 任意 形状 点 阵 (Murthy 和 Lee 2002) 。 标 记 的 生产 和 使 用 现在 被 指定 为 M 
元 ， 每 一 个 arc 的 平衡 方程 数量 从 1 增加 到 M。 产 生 和 使 用 M 维 符号 的 示例 MSDF 
流程 图 及 其 关联 平衡 方程 如 图 11-4 所 示 (Lee 1993a), ， 圆 括号 中 给 出 相 邻 端口 。 
此 域 为 SDF 图 中 的 多 维 调度 问题 提供 了 巧妙 的 解决 方案 ， 并 公开 了 高 维度 符号 的 
并 行 附加 内 部 符号 (Lee 1993a) 。 


(od, od) malodi=rbl id 
(id,, id>) ra2 00=rb2 id» 


a) b) 


Al 11-4 MSDF 流程 图 与 相关 平衡 方程 
a) 流程 图 b) 平衡 方程 
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11.2.4 数据 流 异 构 系 统 原型 


通常 情况 下 ， 为 SoC fll FPGA 设计 异 构 系统 需要 从 高 层 系统 模型 到 应 用 增 量 
精 化 。 这 就 需要 解决 通信 改进 、 专 用 硬件 合成 及 其 他 大 量 问 题 。 或 者 通过 将 应 用 
的 行为 语义 密切 匹配 到 高 级 规范 语义 ， 即 启用 从 功能 性 到 执行 域 的 直接 翻译 。 这 
是 一 种 快速 的 系统 集成 技术 。 图 11-5 所 示 为 所 需 方法 论 的 一 般 概 述 ， 并 展示 了 
该 方法 的 三 个 关键 要 求 : 

1) 合适 的 规范 建 模 域 ; 

2) 快速 的 集成 方法 ; 

3) 分 析 能 力 和 高 级 别 优化 执行 能 力 。 










目标 具体 规范 域 


算术 类 型 和 规模 E 位 真实 模拟 


特定 运算 符 的 循环 字 


算法 变换 


RISC DSP 


异 构 平台 
图 11-5 DSP 系统 设计 方法 


高 级 算法 模型 在 理想 情况 下 要 使 用 无 限 精 确 的 运算 ,但 在 现代 工作 站 技术 的 
体系 结构 中 ， 实 现 建 模 意味 着 在 如 MATLAB 的 建 模 应 用 中 ， 通 常 使 用 整 型 及 单 / 
双 精 度 浮 点 型 运算 就 足够 了 。 理 想 算法 验证 之 后 ， 数 值 建 模 是 将 适用 于 低 精度 的 
数值 模拟 ( 固定/ 浮 - 点) 和 字 长 最 小 化 ， 以 便 为 专用 硬件 组 件 的 实现 确定 候选 
函数 。 这 种 类 低 精度 数学 建 模 操 作 的 重要 性 被 承认 ， 并 被 如 C 语言 的 系统 设计 
语言 (Gritker 等 ”2002) 和 如 MATLAB 的 工具 所 吸纳 。 
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系统 功能 接着 被 映射 到 一 个 嵌入 式 平台 上 的 物理 处 理 器 。 此 分 区 通常 基于 物 
理 的 实施 限制 因素 ， 如 吞吐 量 要 求 、 可 行 专用 硬件 资源 、 通 信和 带宽 或 电力 消费 。 
分 区 之 后 ， 开 始 实施 。 
11.2.5 分 区 算法 实现 


执行 需要 从 分 区 算法 到 硬件 、 软 件 部 分 相互 作用 网 络 的 快速 转换 。 这 种 集成 
方法 的 总 体 结构 如 图 11-6 所 示 。 分 区 算法 在 一 个 或 多 个 微 处 理 器 、FPGA 和 处 
理 右 间 通 信和 点 上 指定 实现 的 功能 池 。 这 从 功能 级 描述 了 整个 模 入 式 系统 。 此 描述 
需要 被 转换 为 物理 表述 。 触 发 器 在 解决 三 个 主要 问题 之 前 被 收集 到 池 中 : 


特定 域 的 分 区 算法 









图 11-6 DSP 系统 快速 设计 实现 


1) 藤 入 式微 处 理 器 的 软件 集成 ; 
2) 每 个 FPGA 的 硬件 合成 ; 
3) 处 理 器 间 骨 入 的 通信 结构 。 

. 为 使 设计 时 间 最 小 化 ， 设 计 者 可 以 使 用 广泛 的 、 不 断 增长 中 的 复合 功能 库 ， 
以 有 效 实现 硬件 和 软件 的 特定 触发 器 。 特 别 是 FPGA 设计 者 ， 目 前 存在 大 量 的 IP 
组 成 部 分 〈 芯 ) 库 ， 如 字 大 小 的 参数 化 功能 ， 鼓 励 重复 利用 多 个 系统 实例 。 由 
于 使 用 这 些 组 件 可 减少 设计 时 间 ， 因 此 这 种 方法 强调 核心 基础 的 设计 ， 因 为 此 应 
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用 减少 了 核心 集成 。 

然而 ， 这 种 做 法 有 大 量 的 的 问题 。 将 来 自 多 个 不 同 源 的 多 个 不 同 内 核 集成 到 
一 个 单一 的 FPGA 核心 网 络 ， 意 味 着 可 能 会 出 现 接 口 问题 。 尽 管 如 VSIA (VSIA 
2007) 的 标准 机 构 作 出 了 努力 ， 但 仍 没有 被 广泛 采用 的 核心 标准 化 接口 协议 ， 
这 意味 着 设计 师 必 须 将 特定 的 应 用 加 上 去 。 

此 外 ， 该 研究 方法 使 用 的 基于 MoC 的 设计 法 ， 表 现 的 灵活 性 可 能 是 核 的 需 
求 ， 而 不 是 核 集 成 过 程 。 本 章 后 面 会 有 更 多 详细 信息 。 本 节 其 余部 分 将 介绍 处 理 
器 间 通 信行 为 改进 和 软件 合成 的 方法 。 


11.3 DFG 蕨 入 式 软件 的 快速 合成 与 优化 


DFG G=V, 描述 了 由 一 组 边 E 相互 关联 的 一 组 顶点 (触发 器 ) Vo 边 从 
概念 上 讲 是 FIFO 符号 队列 ， 其 符号 可 以 是 任意 数值 存储 单元 。 从 算法 转换 到 髓 
人 式微 处 理 器 软件 的 常规 执行 有 4 个 主要 阶段 ， 如 图 11-7 所 示 。 图 11-8 所 示 的 
DFG 中 包含 了 这 4 个 步骤 。 





图 11-7 DFG 的 快速 软件 综合 


11.3.1 图 形 级 优化 


第 一 级 的 优化 是 将 算法 工程 技术 应 用 于 3 , 
DFG 执行 优化 。 这 是 特别 适用 于 使 用 DFC 语 (P v P ve) 
义 的 系统 建 模 (Murthy 和 Lee 2002) 。 图 11-9 
所 示 为 简单 等 效 DFG。 假 设 符号 有 原子 性 ， 人 
则 图 11-9a 的 最 大 可 能 分 区 图 是 单个 处 理 器 ， 并 转换 所 有 通信 频道 实施 矢量 。 这 
隐藏 了 一 些 向 量 乘法 算法 的 固有 数据 并 行 性 能 。 对 于 一 个 ”元 向 量 ， 处 理 向 量 乘 
法 可 能 需要 个 周期 ， 这 成 了 实现 高 吞吐 量 的 重大 缺陷 。 或 者 可 以 为 标量 指定 符 
号 如 图 11-9b 所 示 ， 使 多 处 理 右 的 分 区 和 相应 的 吞吐 量 增加 nn 信 。 这 种 操作 也 改 
变 了 每 个 处 理 器 所 需 的 内 存 资源 ， 因 为 它们 现在 都 需要 标量 符号 缓冲 ， 而 不 是 mn 
元 向 量 。 缺 点 包括 使 用 内 部 符号 的 并 行 性 时 ， 调 度 复杂 性 增加 。 由 于 FPGA 计算 
资源 的 结构 是 在 设计 者 的 控制 之 下 ， 这 一 优化 可 能 特别 适用 于 FPCA 硬件 组 件 网 
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b) 





图 11-9 标量 /矢量 DFG 比较 
a) DFG 的 3 个 矢量 符号 元 素 b) DFC 标量 符号 


络 合成 。 因 此 ， 这 可 能 会 为 DFG 触发 器 网 络 映射 到 FPGA 提供 非常 有 前 景 的 结 
构 探 索 方 案 。 

在 这 一 级 需 注意 ， 为 了 实现 提 及 的 多 种 优化 转换 ， 还 必须 按 所 处 理 的 符号 灵 
活 作 图 ， 如 大 小 为 *; 的 符号 在 端口 i 进行 处 理 。 


11.3.2 图 形 平衡 操作 与 优化 - 


在 基于 数据 流 的 快速 般 入 式 系 统 设计 领域 中 ，SDF RNB SR RASA 
行 时 间 的 相关 潜力 ， 无 疑 是 最 重大 的 两 个 进展 ， 还 有 DFG 确保 内 存 约束 和 无 锁 
死 执 行 (Lee 1991) 的 一 致 性 的 形式 化 分 析 方 法 的 介绍 。 本 节 中 所 有 其 他 更 具 表 
现 力 的 数据 流域 都 源 于 这 些 想法 的 泛 化 ， 特 别 是 式 (11-2) MA (11-3)。 例 
如 ，CSDF 只 是 把 式 (11-2) 中 的 标量 9 和 7 概括 为 二 维 对 象 ， 并 利用 额外 提供 
的 空间 维度 影响 变化 的 触发 器 触发 活动 ， 在 不 违反 式 (11-2) 和 式 (11-3) 一 
致 性 条 件 的 情况 下 ， 利 用 之 前 隐藏 的 并 行 性 ， 使 内 存 资 源 得 到 更 有 效 的 利用 。 
第 一 阶段 中 ， 从 DFG ERRERIK o, - B 
人 式 执行 的 转化 ， 执 行 图 形 平衡 ， 即 满 oe) C$ np CES C 
fast (11-2) 和 式 (11-3) (Parks 等 o d i e 
1995) 的 一 致 性 条 件 。 例 如 图 11-8 所 示 图 11-10 分 值 范例 DFG 
的 SDF 图 ， 有 着 图 11-10 所 示 的 触发 器 
与 编号 , 式 (11-5) 和 式 (11-6) AHA A qo 


7 aes 
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qx [t. 2 4] (11-6) 

在 抽象 的 平衡 层 ， 由 于 应 用 模块 (Lee 和 Messerschmitt 1987a) 的 处 理 ， 主 

体 优 化 机 会 增加 。 从 根本 上 说 ， 这 包括 应 用 程序 的 整数 比 因子 q 以 整数 缩放 了 每 

个 触发 器 的 触发 数目 。 应 用 较 低 级 转换 ， 可 以 提高 执行 效率 和 性 能 ， 如 第 
11. 3.4 节 所 述 。 


11.3.3 聚 类 操作 和 优化 


图 11-8 所 示 的 DFG 示例 存在 众多 的 有 效 调度 ，S = ABCCBCC 和 S, = 
ABBCCCC 是 两 个 有 效 的 例子 。 需 注意 ， 这 两 个 调度 的 触发 器 触发 有 不 同 序 的 分 
组 。 在 给 定 的 数据 流 算法 的 均衡 表示 中 ，g; 定义 了 和 迭代 调度 中 触发 器 的 触发 数 
目 。 在 聚 类 的 阶段 ， 每 个 触发 器 的 触发 被 细 分 成 成 组 的 一 个 或 多 个 连续 触发 ， 称 
为 执行 。 每 一 个 触发 器 i 执行 的 触发 数目 被 称 为 它 的 粒度 ， 它 定义 了 执行 之 前 的 
触发 器 端口 的 可 输入 标记 数目 。 如 图 11-11 所 示 的 调度 S 和 5,， 给 出 了 概述 每 
一 个 触发 器 触发 和 执行 的 依赖 图 。 


OYOOOOOOD OOOOOOO 


触发 执行 
a) b) 


图 11-11 调度 触发 /执行 组 织 
a) S, 独立 流程 图 b) S, 独立 流程 图 


从 执行 净值 和 调用 方面 诠释 式 (11-2) ， 可 定义 如 式 (11-9) 所 示 的 平衡 系 
统 ， 作 为 一 个 平衡 系统 的 定义 , 芽 . 在 式 (11-7) 中 给 出 ， 通 过 求解 每 一 个 DFG 
的 式 (11-8)， 推 导出 执行 重复 向 量 9。。 需 特别 注意 缩放 因子 廊 与 每 个 触发 器 7 
HK. ER TH ASHRAF REM EHTEL 

k,xxj (n) 如 果 触 发 器 7 产生 arci 
T= -kx yi (n) ”如 果 触 发 器 j 消耗 arci (11-7) 

0 其 他 

q.G) 2a G)/k, (11-8) 
I4, -0 (11-9) 
满足 式 (11-9) 的 调度 采样 率 一致 ， 是 有 效 调 度 的 两 个 关键 特征 (Lee 
1991 ， 详 见 第 11.3.4 节 ) 之 一 。 因 此 通过 操作 工 . 和 gq。 来 控制 的 聚 类 阶段 ， 提 供 
了 执行 优化 的 两 个 自由 度 。 此 操作 受到 与 每 个 触发 器 在 聚 类 阶段 相关 联 的 操纵 因 
子 开 的 影响 。 需 考虑 如 何 实现 图 11-8 所 示 的 DFG 的 执行 优化 。 图 11- 10 中 标记 
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的 工 和 gq. 触发 器 的 值 在 表 11-1 给 出 。 
表 11-1 示例 调度 TI. 和 gq。 
调度 








ABCCBCC 








ABBCCCC 





高 g 变换 通过 增加 名 在 式 (11-8) 和 式 (11-7) 中 的 值 来 最 大 化 单个 触发 器 
执行 国 值 。 这 减少 了 每 个 触发 器 的 执行 数量 ， 用 可 以 减少 应 用 执行 的 运行 时 耗 的 方 
法 集中 触发 器 。 这 些 间接 消耗 可 能 有 各 种 来 源 ， 如 IPC. (远程 处 理 器 设置 /关闭 通 
信和 链 路 时 可 能 出 现 处 罚 时 ) 或 动态 调度 。 考 虑 图 11-11a 所 示 的 第 一 调度 4(2B 
(2C)), ， 将 数据 发 送 到 远程 处 理 器 ， 其 中 触发 器 C 为 IPC 触发 器 。 在 这 种 情况 下 ， 
设置 和 关闭 转换 的 相关 系统 开销 分 别 被 触发 器 执行 的 调用 和 结论 调用 。 若 要 最 大 化 
通信 效率 〈 即 每 次 损失 调用 的 传输 数据 量 ) ， 则 应 通过 增 大 .的 值 最 大 化 每 次 执行 
时 C 触发 的 数量 〈 即 C 的 粒度 ) 。 这 受 聚 类 步骤 中 设置 上 =4 的 影响 ，C 单 次 执行 
发 生 时 ， 此 执行 过 程 中 所 有 触发 发 生 。 这 可 能 会 产生 如 ABBCCCC 的 调度 。 

另 一 方面 ， 从 初始 执行 的 数据 内 存 需求 来 考虑 图 11-15 所 示 的 两 个 调度 的 执 
行 。 在 图 11-11a F, C 的 高 粒度 意味 着 在 第 一 次 触发 开始 之 前 ， 数 据 缓冲 区 必 
须 保 存 将 被 输入 到 C 的 所 有 4 个 符号 。 在 这 种 情况 下 ， 为 了 减 小 执行 所 需 的 组 
冲 内 存 ， 可 使 用 高 4 变换 。 在 图 11-15 的 情况 下 ， 这 涉及 最 小 化 k。 和 应， 如 
k,-2, ky =1。 这 减少 了 执行 中 的 触发 数目 ， 也 减少 了 5 和 “开始 执行 前 必须 存 
储 的 符号 数目 。 


11.3.4 调度 操作 和 优化 


生成 DFG 的 嵌入 式 应 用 源 代 码 的 最 后 一 步 为 执行 的 调度 。 在 此 步 又 中 ,每 
个 触发 器 的 各 种 执行 按 执行 顺序 排序 。 如 其 所 述 ， 确 保 DFG 组 入 式 执 行 可 实现 
定期 受理 调度 (Lee 1991), ， 必 须 满足 两 个 关键 步 又。 第 一 步 ， 图 形 平 衡 期 间 核 
查 图 形 样本 率 的 一 致 性 ， 如 第 11.3. 2 节 所 述 。 第 二 步 是 确保 避免 锁 死 现象 。 

对 于 髋 入 式 应 用 优化 的 不 同方 面 的 各 种 调度 技术 的 研究 ， 如 数据 /代码 内 
( Bhattacharyya 等 1999) 、IPC 或 处 理 器 间 同 步 (Sriram 和 Bhattacharyya 2000), 
已 投入 了 大 量 的 研究 工作 。 例 如 ， 如 果 没 有 在 系统 上 执行 交错 调度 优化 的 能 力 ， 
则 第 11. 3. 3 节 所 述 的 高 q 值 转换 技术 是 多 余 的 。 图 11- 11a 所 示 的 高 q 值 的 调 
BE, 分 割 B 和 C 的 执行 并 不 影响 数据 内 存 需求 ， 除 非 调度 步骤 可 以 识别 进行 交 
T BU C 执行 的 可 能 性 ， 这 样 用 来 存储 C 的 输入 符号 的 数据 缓冲 区 就 可 以 被 执 
行 重用 ， 从 而 减少 C 一 半 的 缓存 需求 。 没 有 此 交错 调度 ， 高 4 TRACHEA 
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人 式 软 件 的 数据 缓冲 区 要 求 。 
11.3.5 代码 的 生成 操作 和 优化 


图 11-8 所 示 的 DFG 例子 中 给 出 9， 其 有 效 调度 包括 Sı =A(2B(2C)); S, = 
ABCBCCC; S, -A(2B) (4C) ; S, =A(2BC)(2C), Si, S, FAS, 圆 括号 中 的 条 件 
表明 这 些 调度 的 循环 调用 。 因 此 $; 有 一 个 4 触发 ， 然 后 是 两 个 重复 的 BCC 触发 。 
同样 地 ，S3 实现 ABBCCCC, S4 KI ABCBCCC, 4% fith code block for A 
发 器 实例 处 ， 代 码 生成 器 插入 代表 触发 器 功能 的 代码 部 TO org 
分 。 例 如 ,在 5, 中 ,代码 生成 器 必须 把 7 个 代码 段 分 别 arene 
实例 化 。 然 而 ，51 ，S; ，S 括 号 中 的 条 件 被 换 为 代码 循 。 fat-oicit( 
环 的 单一 实例 化 , 减少 了 调度 触发 器 实例 的 数量 。 图 } 

11-12 中 的 代码 段 是 可 从 $4 生成 的 典型 例子 。 不 同调 度 方 图 11-12 调度 S, 生成 的 
法 生成 的 调度 需要 不 同 的 代码 内 存 空间 。 同 样 ， 每 个 调 循环 调度 源码 
度 的 缓冲 区 记忆 也 不 同 。 表 11-2 总 结 了 每 个 调度 的 代码 
和 缓冲 区 内 存 需 求 。 很 明显 ， 系 统 如 何 调度 对 舱 入 式 表 现 有 重大 的 影响 。 
表 11-2 调度 不 同 的 存储 需求 











调度 代码 存储 容量 (模块 ) 缓冲 区 内 存 要 求 
4(2B(2C) ) 3 4 
ABCBCCC 7 5 
A(2B) (4C) 3 6 
A(2BC) (2C) 4 5 








11.3.6 系统 级 别 设计 方案 探索 中 DFG 触发 器 的 可 配置 性 


整合 后 ， 实 时 和 物理 约束 的 规范 必须 得 到 满足 ， 如 吞吐 量 、 资 源 处 理 、 内 存 
使 用 情况 或 一 些 其 他 制约 因素 。 只 有 满足 这 些 约束 ， 执 行进 程 才 是 完整 的 。 否 则 
必须 应 用 转换 实现 的 方法 。 这 些 转换 可 以 在 低 抽象 级 别 中 应 用 ， 其 高 设计 细节 意 
味 着 应 用 许多 不 同 转换 是 困难 而 费时 的 ， 这 在 某 种 程度 上 和 否定 了 快速 实施 方法 论 
的 快速 设计 能 力 。 另 一 种 方法 是 应 用 对 算法 的 高 级 别 转换 来 影响 甬 人 式 应 用 。 这 
是 一 种 粗 粒度 的 探索 ， 但 明显 比 低级 别 转换 更 快 ， 细 节 度 更 低 ， 并 可 辅 之 以 较 低 
级 别 转换 ， 来 允许 对 应 用 的 必要 细 粒 度 控 制 。 这 种 快速 设计 探索 是 目前 基于 
MoC 快速 实现 方法 的 一 个 主要 好 处 。 

本 节 展 示 了 数据 流 触发 器 在 某 些 方面 的 灵活 性 如 何 使 不 同 的 多 处 理 器 调度 ， 
影响 能 人 式 的 实现 。 这 人 允许 设计 者 在 图 形 、 平 衡 、 聚 类 级 别 的 能 入 式 应 用 的 系统 
级 探索 中 操作 DFC。 表 11-3 总 结 了 各 种 类 型 的 不 同 抽象 级 别 优化 所 需 的 灵活 性 。 


254 信号 处 理 系统 的 FPGA 实现 





表 11-3 BARRE DFG 的 参数 配置 














抽象 层次 主要 操作 描述 
4 多 种 参数 
算法 X 连接 弧度 大 小 
S 弧 的 参数 

平衡 J 阻 断 因子 
RK k 比例 因子 








第 11. 3. 1 节 所 述 的 图 级 转换 取决 于 权衡 带 输入 和 和 输 出台 符号 维度 的 触发 右 
数目 的 能 力 ， 它 们 在 表 11-3 中 分 别 被 定义 为 符号 4 AX. FOR ETT EC, BET fh 
发 器 的 触发 器 数目 可 以 通过 执行 模块 处 理 进 行 操纵 ， 例 如 按 常 数 因子 了 缩放 式 
(11-3) 中 的 4 矢量。 在 聚 类 阶段 ， 触 发 器 使 用 缩放 因子 来 实现 高 8/ 高 9 转换 ， 
如 第 11. 3. 3 节 所 述 。 


11.3.7 DFG 专用 硬件 的 快速 合成 和 优化 


第 6 章 和 第 8 章 描述 了 FPGA 上 的 寄存 器 可 编程 逻辑 如 何 使 它们 适合 于 托管 
满足 DSP 功能 的 高 吞吐 量 、 流 水 线 的 电路 架构 。 此 外 ,大量 针 对 把 信号 流 图 
(SFG—SRDFG 的 一 类 ) 转换 到 流水 线 硬件 结构 的 自动 化 设计 技术 的 研究 ， 意 味 
着 这 些 设 计 方法 可 以 实现 高 实时 性 能 ， 并 适用 于 以 数据 流 为 中 心 的 系统 级 设计 方 
法 。 这 些 类 型 的 做 法 均 符 合 快速 应 用 方法 论 的 快速 核 生成 技术 的 需求 。 图 11- 13 
所 示 为 把 MRDFG 规格 转换 为 流水 线 电 路 应 用 的 典型 结构 合成 技术 。 






MRDFG 


MRDFG — SFG 
转换 







RTL 流 水 线 
电路 结构 


B| 11-13 MRDFG 流水 线 核 综 合 步骤 


这 个 过 程 中 最 值得 注意 的 是 ， 要 把 算法 的 MRDFG 描述 转换 为 单一 频率 的 
SFG 描述 。 这 种 转换 是 必需 的 ， 因 为 多 速率 模型 (Lee 和 Messerschmitt 1987b) 
的 行为 语义 明显 比 单 速率 更 具 表现 力 ， 且 这 些 须 被 改进 为 使 流水线 硬件 的 低级 别 
设计 (Parhi 1999) 可 行 。 特 别 地 ， 有 大 量 与 系统 SFC 建 模 相关 的 限制 ， 

1) DEG 中 所 有 端口 的 冰 值 整体 固定 ; 
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2) 每 个 触发 器 在 调度 迭代 中 只 触发 一 次 ; 

3) 端口 符号 是 原子 性 的 。 

SFG 的 限制 行为 语义 会 比 MRDFG 产生 更 复杂 的 MRDFG 模型 ， 这 些 方面 的 
相应 操作 表现 为 SFG 图 中 的 结构 变化 。 结 构 本 身 的 合成 包括 三 个 主要 系统 功能 
语法 结构 转换 ， 产 生 一 个 适用 于 流水 线 的 组 件 实现 (Parhil999) 。 时 序 重 构 过 程 
早先 在 第 8 章 介绍 过 ， 以 及 折 和 至 和 展开 ， 用 来 优化 分 区 或 吞吐 量 约束 的 电路 
结构 。 

SFG 结构 集成 技术 包括 有 先进 调度 算法 的 分 层 合成 工艺 和 最 低级 (原始 级 ) 
组 件 预定 义 内 核 的 合成 (Yi 和 Woods 2006) 。 然 而 ， 最 近 的 工作 ， 在 这 一 领域 
中 的 大 部 分 ， 在 进行 从 系统 功能 语法 翻译 到 流水 线 的 硬件 体系 结构 ， 很 大 程度 上 
把 MRDFG 到 SFG 的 转换 看 作 是 必要 的 前 期 步骤 。 图 11- 13 所 示 的 整个 架构 合成 
过 程 基于 SFC 域 ， 生 成 的 流水 线 核心 体系 结构 是 针对 SFG 结构 的 ， 因 此 通过 逻 
辑 扩展 MRDFG 的 行为 配置 生成 SFG。 这 种 情况 下 所 施加 的 限制 在 第 11. 3. 8 节 有 
表述 。 


11.3.8 专用 硬件 体系 结构 流水 线 的 限制 行为 合成 


将 SFG 合成 方法 应 用 于 触发 器 的 问题 在 于 ， 表 11-3 中 的 任何 配置 因素 的 变 
更 不 会 影响 MRDFG 的 结构 ， 却 隐藏 了 语言 的 行为 语义 变化 。 然 而 ， 从 MRDF 到 
SFG 转换 的 变化 ， 会 作为 SFG 中 的 结构 性 变化 显现 出 来 ， 因 为 此 处 的 行为 语义 
是 固定 的 。 流 水 线 的 核心 是 将 结构 合成 技术 应 用 于 SFG 的 结果 ， 这 意味 着 ， 探 
索 使 用 MRDFG 的 触发 器 配置 变更 的 系统 设计 空间 ， 需 要 为 表 11-3 的 因素 所 映 
射 的 设计 空间 中 每 个 探索 点 重新 合成 流水 线 核心 。 为 了 说 明 产 生 这 种 限制 的 问 
题 ， 图 11-14 所 示 为 假设 结构 合成 过 程 的 MRDFC。 


(2,1) (m,n) (m,n) (2,1) 
人 


Al 11-14 MRDFG 结构 综合 示例 


在 这 里 ， 触 发 器 4 产生 弧 上 维度 (2,1) 的 符号 。 这 些 符号 被 作为 流水 线 的 
硬件 组 件 B 的 消耗 。B 消耗 并 产生 维度 (m,n) 的 符号 ，m 和 的 值 在 设计 者 的 
算法 级 优选 控制 下 ， 如 第 11.3. 1 节 所 述 。MSDF 多 维 语义 允许 通过 操纵 语义 符 
号 维度 探索 ， 如 第 11.2.3 节 所 述 。 然 而 当 转 换 为 SFG 时 ， 这 种 类 型 的 并 行内 部 
符号 的 图 形 水 平 探索 被 禁止 ， 并 体现 为 DFG 的 结构 变化 。 为 了 证 明 这 一 点 ， 图 
11-14 所 示 SFG 的 B 的 不 同 (m, n) 值 如 图 11-15 所 示 。 假 定 SFG 触发 器 端口 
转移 的 符号 维度 是 (1，1) ，G 值 为 1， 以 确保 SFC 结构 的 变化 只 是 由 于 符号 维 
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度 的 变化 。 

在 三 种 不 同 配置 中 ， 改 变 DFG 符号 维度 就 改变 了 B 上 的 输入 端口 数目 ， 因 
为 每 个 SFG 触发 器 必须 把 维度 (1,1) 的 (m,n) 转换 为 一 个 触发 。 此 外 ， 很 显 
然 ， 各 种 符号 的 维度 受 q; 改 变 的 影响 ， 在 图 形 调 度 表 迭 代 中 的 触发 器 的 触发 数 
目 ， 导 致 触发 器 实例 的 数目 变量 ， 因 为 在 SFG rn, qq 始终 是 1。 因 此， 应 用 第 
11. 3. 1 节 所 述 的 图 级 转换 类 型 ， 而 无 需 为 开发 空间 中 的 每 个 点 重新 合成 流水 线 
硬件 ， 触 发 器 在 端口 数 和 触发 实例 数量 方面 必须 是 灵活 的 。 第 11.3. 2 节 强 调 的 
基于 图 级 平衡 阶段 模块 处 理 来 对 SFG 不 同 结构 进行 的 分 析 ， 加 强 了 这 种 观察 。 
图 11-16 所 示 为 图 11-14MRDFG 的 SFG 结果 , j =1，J=2 上 且 符 号 维度 为 常数 。 
这 表示 应 用 模块 处 理 有 效 地 复制 了 SFC. 





图 11-15 不 同 图 层 操作 的 SFG 结构 
a) (m,n) =(1,1) b) (m,n) =(1,3) c) (m,n) =(2,1) 





图 11-16 不 同 模块 处 理 因素 的 SFG 结构 
a) J=1 b) J=2 


这 一 节 表 明 ， 由 于 MRDFG 与 SFG 行为 语义 之 间 的 差异 ， 因 此 SFG 不 能 用 
于 多 个 MRDFG 触发 器 配置 。 从 逻辑 上 说 ， 任 何 通 过 结构 合成 生成 的 SFC 流水 线 
核 ， 不 能 用 于 不 同 MRDFG 触发 器 配置 ， 即 不 能 重复 用 于 多 个 MRDFG 系统 ; 
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MRDFG fii 2223 AY 6 Rik AAS ACP EE, pm BE BCI 
重新 合成 一 个 新 的 流水 线 核心 。 

这 并 不 只 是 SFG 结构 合成 技术 的 缺点 ， 而 是 所 有 嵌入 式 系 统 中 ,流水线 核 
心 的 MRDFG 生成 的 衍生 结果 。 因 此 ， 当 前 的 技术 不 能 同时 实现 MRDFG 框架 下 
快速 流水 线 的 硬件 组 件 合成 ， 与 基于 重用 生成 组 件 的 双重 要 求 。 当 设计 MRDFG 
级 算法 时 ， 设 计 者 只 能 推断 ， 而 不 是 直接 施加 控制 专用 硬件 体系 结构 。 下 一 节 将 
概述 克服 了 这 些 困 难 的 流水 线 硬 件 核心 的 合成 方法 ， 使 得 生成 的 流水 线 专用 硬件 
足够 灵活 ， 多 个 MRDFG 触发 器 配置 无 需 重 新 设计 ， 使 异 构 FPCA 的 DSP 系统 实 
现 真正 的 系统 级 开发 。 


11.4 异 构 藤 入 式 DSP 系统 的 系统 级 建 模 


设计 者 缺乏 对 应 用 结构 的 明确 控制 的 关键 问题 在 于 ，MRDFG 自身 缺乏 灵活 
性 。 标 准 数据 流 语言 里 的 某 个 触发 器 ， 如 SDF 或 MSDF， 可 以 表示 任意 数量 的 应 
用 任务 ， 而 不 是 利用 DFG 触发 器 数目 和 解决 方案 中 的 核心 数目 之 间 的 紧密 关系 。 
为 了 克服 此 结构 的 灵活 性 问题 ， 可 使 用 多 维 阵列 的 数据 流 ( Multidimen Sional Ar- 
rayed Dataflow, MADF) 域 。 为 了 演示 域 (McAllister 等 2006) 的 语义 ， 考 虑 一 
个 矩阵 乘法 问题 一 一 m1 乘 m, ( 维度 分 别 是 (m,n) 和 (n,p))。 图 11-17a 所 示 为 
这 一 问题 的 MSDF 图 。 

ms 解释 为 一 系列 的 平行 列 向 量 ， 其 中 每 个 向 量 是 mw 的 一 列 ， 向 量 可 以 分 为 任意 
大 小 的 矩阵 ， 允 许 ml 和 数组 y HITRA, EE m, m, e, m, y m IA mh p 
列 向 量 ; xp/y, =, ((i+1) xp/y) -1。 图 11-17b 中 ,mw 细 分 成 p =4 的 平行 子 和 矩阵 。 
请 注意 常规 乘法 器 数目 和 使 用 的 每 一 个 子 矩 阵 大 小 之 间 的 关系 。 这 种 关系 可 以 被 用 来 
定期 更 改 DFG 结构 ， 折 衷 触 发 器 数目 与 每 个 接口 处 理 的 符号 维度 (BI MSDF 中 同样 
的 转变 ) 同时 仍然 控制 算法 “结构 " 。 给 出 一 种 适当 的 合成 方法 ， 能 扩展 以 保证 FP- 





b) 


图 11-17 矩阵 乘法 MSDF 和 并 行 探究 
a) MSDF 矩阵 乘法 器 b) 并 行 矩 阵 乘法 
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MADF 模拟 域 被 设计 用 于 图 形 水 平 控制 的 底层 处 理 结构 。 在 MADF H, DFG 
触发 器 和 边缘 的 概念 被 推广 到 数组 。MASDF 图 中 G = V,, E, 描述 了 圆 弧 连接 数 
组 的 触发 器 阵列 。 和 矩阵 乘法 的 MADF 图 如 图 11-18 所 示 。 触 发 器 数组 是 黑色 ， 单 
一 的 触发 器 〈 或 触发 器 数组 大 小 为 1) 是 白色 的 。 弧 数组 是 实 线 ， 单 一 弧 (或 弧 
数组 大 小 为 1) 是 虚线 。 触 发 器 数组 的 大 小 是 在 触发 器 数组 上 的 尖 括 号 引用 。 

图 中 ， 系 统 设计 者 控制 如 图 11-18 所 示 的 参数 y。 它 用 来 定义 m_ mult, m_ 
sre1 ，m _ src, Fil snk 触发 器 数组 的 大 小 ， 以 及 m _ sre, 上 的 端口 o,，m _ mult 上 的 
端口 b Wü o 所 使 用 的 符号 维度 。 如 果 m malt 触发 器 组 转换 成 可 匹配 端口 符号 维 
度 的 一 族 核 ， 那 么 这 允许 每 个 简单 图 级 控制 的 核 和 符号 维度 数目 。 然 而 ， 如 第 
11.3.8 节 所 述 ， 通 过 单 率 数据 流 合成 法 来 制备 的 核 ， 具 有 固定 端 符号 维度 。 下 
面 对 如 何 克 服 这 种 限制 进行 概述 。 


11.4.1 交叉 和 模块 触发 器 在 MADF 中 的 进程 


图 11-18 所 示 为 矩阵 乘法 实例 中 ， 
m2 的 子 和 矩阵 数组 输入 的 情况 。 单 芯 如 何 
能 做 到 足够 灵活 ， 以 实现 任何 大 小 的 输 
入 矩阵 从 固定 符号 维度 的 SFG 描述 中 生 
产 流水 线 核 ? 

如 第 11.4 节 中 所 述 ， 每 个 子 和 矩阵 y 
可 以 解释 一 系列 的 p 列 向 量 ,并 由 ms Wixp/y, +, (G1) xp/y) -1 组 成 第 ; 
个 子 矩阵 。 以 第 11.4 ABI, y 24, 第 i 个 子 和 矩阵 可 从 图 11-19 所 示 的 两 个 方 
面 解释 。 





图 11-18 和 矩阵 乘法 器 


<0>X, 


LU «2» X 
- je Res = yg: 


图 11-19 固定 字符 大 小 的 子 和 矩阵 分 解 





这 表明 ， 和 矩阵 符号 可 以 解释 为 一 族 基 本 符号 。 如 果 触 发 器 处 理子 矩阵 只 能 处 
理 基 本 符号 ， 则 整个 子 矩 阵 的 处 理 可 使 用 多 个 迭代 来 处 理 独立 的 基本 符号 。 为 
此 ，MADF 允许 不 同 大 小 数组 的 触发 器 端口 ， 每 个 符号 使 用 固定 维度 〈 基 本 符 
号 ) 。 若 要 使 触发 器 迭代 多 次 来 处 理 实际 符号 中 的 多 个 基本 符号 ， 则 MADF 触发 
器 可 能 是 循环 的 〈 见 第 11.2.2 节 ) ， 单 个 触发 使 用 通过 数组 中 每 个 端口 返回 的 
一 个 或 多 个 基本 符号 。 图 11-20 所 示 为 MADF 矩阵 乘法 问题 的 完整 固定 符号 处 理 


第 11 章 ， 基于 模型 的 异 构 FPGA 设计 259 





版 本 。 请 注意 端口 阵列 (黑色 ) 与 固定 符号 维度 的 存在 。 . 

已 经 开发 出 内 部 符号 的 开发 空间 通过 跨 多 个 流 运输 基本 符号 分 隔 实 际 符 号 ， 
并 进一步 执行 开发 。 在 端口 阵列 用 于 处 理 单个 符号 的 情况 下 ， 可 以 实现 每 个 端口 
交叉 处 理 的 数组 ， 即 使 用 单个 基本 符号 ， 也 能 形成 完整 符号 。 在 这 种 情况 下 ， 端 
口 的 每 个 数组 元 素 的 阔 值 是 1。 然 而 ， 允 许 端口 数组 元 素 阐 值 大 于 1， 可 启动 模 
块 处 理 , 符 号 处 理 产 生 多 流 处 理 问题 。 在 一 个 端口 数组 ， 第 i 个 元 素 具 有 第 i 个 
以 外 的 所 有 端口 数组 的 大 小 为 零 的 生产 /使 用 的 矢量 。 这 些 量 表现 为 对 角 线 的 关 
系 ， 即 对 于 端口 数组 w， 除 元 素 0 外 ao 的 所 有 使 用 矢量 都 是 零 ， 除 元 素 1 外 a, 
的 所 有 矢量 都 是 0 等 。 这 种 模式 从 广义 上 说 ， 一 个 具有 并 个 元 素 与 国 值 z 端口 的 
数组 表示 为 <n >[z] ， 如 图 11-21 的 m mult 所 示 ，y 23. Z 的 值 用 作 每 个 子 端 
口上 的 阀 值 ， 指 示 是 否 使 用 交叉 或 模块 处 理 (z =1 为 交叉 ，z > 1 模块 处 理 ) 。 


(3,3) 
m_sre1 (00 3 <y> 
L— pay 





图 11-20 全 MADF 和 矩阵 乘法 11-21 和 矩阵 乘法 的 模块 处 理 


鉴于 MADF 结构 中 这 种 水 平 的 灵活 性 ， 很 明显 设计 者 可 以 通过 合适 的 专用 
硬件 合成 方法 来 控制 硬件 组 件 的 数量 和 每 个 图 级 水 平 的 特点 。 生 成 MADF BRE 
入 式 应 用 最 紧迫 的 问题 时 是 核心 的 结构 合成 方法 可 以 连接 流水 线 固定 语义 ( 即 
固定 符号 维度 、 阔 值 和 处 理 流 ) 之 间 差 距 的 方式 。 如 本 节 所 述 ， 这 些 限制 与 执 
行 硬件 组 件 的 MAD 触发 器 的 灵活 性 直接 对 比 。 适 当 的 结构 合成 方法 必须 能 够 利 
用 固定 语义 流水 线 的 IP 核实 现 配 置 为 Cs 的 MADF 触发 器 ， 如 式 (11-10) ， 其 中 
X, T, S 代表 变量 表达 式 的 符号 维度 、 阔 值 和 每 个 端口 的 流 处 理 数 。 第 11.5 节 

将 概述 这 如 何 实现 。 
Gati XQ Spl (11-10) 


11.5 MADF 算法 的 流水 线 核心 设计 


一 组 MADF 触发 器 转换 为 一 组 虚拟 处 理 器 (Virtual Processor, VP) 执行 ， 
如 图 11-22 中 所 述 。 有 两 个 主要 执行 任务 需要 解决 : BU VP 节点 的 生成 和 FIFO 
网 络 的 互 连 。 一 个 VP 由 三 部 分 组 成 : 

1) 控制 和 通信 封装 (Control and Communications Wrapper, CCW) ; 

2) 功能 引擎 (Functional Engine, FE); 

3) BRU (Parameter Bank, PB), 
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输入 数据 流 
输出 数据 流 


参数 位 置 





图 11-22 VP 体系 结构 


CCW 实现 了 通过 转换 数据 流 可 共享 VP (代表 MADF 触发 器 ) 出 入 FE。 这 
里 的 读 取 单位 还 实现 了 MADF 网 络 必需 的 边缘 FIFO 缓冲 。FE 实现 节点 的 功能 和 
单位 的 核心 部 分 。 它 可 以 是 任何 结构 ， 但 在 这 里 它 是 一 个 高 吞吐 量 的 流水 线 核 。 
PB 为 核 的 运行 时 间 常 数 提供 本 地 数据 存储 ， 如 FIR 滤波 器 抽 头 权重 。VP 的 所 有 
部 分 都 是 自动 生成 的 ; 然而 ， 流 水 线 核 心 部 分 的 灵活 性 供 跨 多 个 应 用 程序 和 
MADF 触发 器 配置 重复 使 用 ， 这 只 需 创 建 和 重用 中 一 种 基于 核心 的 设计 策略 即 
可 。 自 动 生 成 有 效 产生 FIFO 缓冲 器 和 控制 器 的 专用 数据 流 硬件 是 一 个 研究 充分 
的 领域 (例如 Dalcolmo 等 1998 Harriss 等 2002，Jung 和 Ha 2004, Williamson 和 
Lee 1996)。 本 章 的 其 余部 分 便 与 可 重用 FE 的 设计 有 关 。 

当 一 个 VP 的 FE 部 分 是 流水 线 核 ， 它 被 设计 成 白 盒 组 件 (White Box Compo- 
nent, WBC), ， 并 在 第 9 3€ (Yi 和 Woods 2006) 有 描述 ; 结构 和 行为 在 这 里 被 描 
述 为 使 用 2 阶 FIR 滤波 器 WBC 例子 ， 如 图 11-23 所 示 。WBC 由 计算 部 分 和 状态 
空间 组 成 ， 如 第 9 章 所 述 ， 但 设计 可 重用 的 关键 方面 ， 即 可 配置 核心 ， 在 于 空间 





图 11-23 2 阶 滤波 器 的 WBC 状态 
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部 分 恰当 的 电路 设计 。SFG 结构 合成 过 程 产生 一 个 MADF 触发 器 的 基础 数据 状 
态 空 间 。 然 后 经 一 系列 的 扩 增 系统 给 WBC 一 个 灵活 的 内 部 结构 ， 无 需 重新 设 
计 ， 即 可 满足 MADF 经 常 变化 的 配置 。 


11.5.1 MADF 可 配置 流水 线 专用 硬件 结构 的 合成 


SFG 结构 合成 导致 流水 线 WBC 的 结构 ， 仅 仅 是 原始 SFC 算法 的 一 个 实时 版 
本 ， 其 中 的 计算 资源 必须 在 输入 流 数 组 的 n 个 元 素 之 间 有 效 地 时 分 复 用 ， 整 个 
SFG 在 交叉 处 理 的 情况 下 为 单 周 期 ， 在 模块 处 理 的 情况 下 多 周期 。 

若 要 启用 交叉 处 理 ， 则 WBC 状态 空间 增加 过 程 的 第 一 阶段 是 横向 时 延 缩 
放 。 若 要 启用 交叉 共享 ， 则 SFG 结构 是 上 放 缓 的 (Parhi 1999), SFG 结构 合成 
造成 的 时 延长 度 由 系数 来 衡量 ， 如 果 是 n 输入 流 交 叉 处 理 ， 则 =n。 这 种 类 
型 的 操作 被 称 为 横向 时 延 缩放 。 

如 果 需 要 模块 处 理 ， 则 基本 符号 从 单个 端口 数组 元 素 使 用 /产生 的 为 持续 的 
周期 数 。 因 此 ， 对 于 S 流 ，VP 状态 空间 应 该 有 足够 的 能 力 激活 与 单个 流 相 关 的 
状态 空间 ， 并 在 为 下 一 流 加 载 状态 空间 前 ， 处 理 任意 数量 的 符号 。 这 种 负荷 一 计 
算 一 存储 的 行为 是 最 适合 于 执行 分 布 式 内 存 内 容 的 一 个 组 成 部 分 ， 由 控制 器 调度 
确定 活动 的 内 存 位置 。 这 就 是 所 谓 的 纵向 时 延 缩放 ， 每 个 SFC 时 延 缩 放 为 5 元 
的 DisRAM。 

有 横向 和 纵向 时 延伸 缩 性 生成 方法 ， 可 重用 WBC 核 的 结构 合成 过 程 为 允许 
触发 器 和 流水 线 核 配置 ， 得 到 式 (11-10) 的 系数 ， 一 个 4 阶 结构 合成 已 在 
开发 。 

(1) 执行 MASDF 触发 器 SFG 结构 合成 。 选 择 MADF 触发 器 C，C 是 固定 的 
专用 基本 配置 。 这 被 转换 为 SFG 结构 合成 。MADF 触发 器 C, 是 最 小 的 可 能 配置 
值 ， 由 此 产生 流水 线 架构 ， 基 本 处 理 器 P, 可 用 ,但 因为 参数 化 结构 的 经 常 变化 ， 
处 理 器 可 以 执行 整数 超 集 配 置 。 基 本 配置 值 越 低 ， 组 件 可 以 实现 更 高 阶 配置 的 范 
围 越 大 。 高 阶 配置 执行 越 有 效 ，Cv 值 越 高 。 若 两 级 FIR 的 = {111}, W 
WBC 中 P, 的 WBC 如 图 11-23 所 示 。 

(2) 交叉 处 理 的 横向 时 延 可 伸缩 性 。 要 实现 可 变 交 叉 操 作 的 开放 缓 ， 所 有 
时 延 的 长 度 必须 用 常数 0 衡量 。 所 有 最 低级 组 件 〈 加 法 器 /乘法 器 ) 由 预先 设计 
的 有 固定 流水 线 深度 的 核 (图 11-23 中 为 同一 值 ) 建立 ， 设 计 者 是 无 法 改变 的 。 
若 要 启用 这 些 时 延 的 缩放 ， 还 应 加 强 输出 时 延 来 缩放 单个 流水 线 阶 段 的 长 度 0。 
图 11-23 的 流水 线 FIR 生成 的 FIR 电路 结构 如 图 11-24a 所 示 。 标 记 (Q) D 引 
用 了 维度 (1, Q) 的 时 延 数组 。 需 注意 ， 所 有 时 延长 度 现 在 都 是 横向 缩放 比例 ， 
系数 Q 输出 的 最 低级 别 组 件 上 的 附加 时 延 锁链 。 这 种 类 型 的 操作 适合 于 有 效 执 
行 作为 移 位 寄存 器 的 长 时 间 时 延 的 FPGA。 
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(3) 模块 处 理 的 纵向 时 延 可 伸缩 性 。 模 块 处 理 的 电路 时 延 被 纵向 比例 系数 P 
进行 缩放 ， 人 允许 组 合 的 交叉 /模块 处 理 。 这 会 导致 维度 (P, Q) 的 拖延 数组 。 当 
这 被 应 用 于 图 11-24a 所 示 电 路 时 ， 创 建 图 11-24b 所 示 的 FIR 电路 结构 。 注 意 在 
所 有 时 延 阵列 上 的 纵向 比例 系数 。 这 种 基于 RAM mt 
FPGA 实现 ， 因 为 这 些 可 以 用 可 编程 逻辑 实现 小 型 分 布 式 的 RAM ( DisRAM)。 

些 DisRAM OU EE Ase este a aie eas 
缘 权重 。 

(4) 重新 定时 结构 最 小 化 横向 时 延 可 伸缩 性 。 当 P, 用 来 实现 比 Cs 高 得 多 的 
MADF 触发 器 配置 时 ， 会 导致 很 大 的 时 延长 度 。 为 了 尽量 减少 这 些 ， 将 定时 应 用 
于 增强 处 理 器 结构 。 








流 地 址 
(控制 器 ) 


一 | a 
pesi Gt 





E 11-24 2 阶 滤波 器 WBC 的 不 同 缩放 
a) 2 阶 滤 波 器 WBC 横向 缩放 b) 2 阶 滤波 器 WBC 纵向 缩放 


11.5.2 WBC 配置 


基于 WBC 结构 P, 的 配置 创建 后 ， 必 须 用 特定 的 MADF 触发 器 配置 使 用 。 
MACE P, (C, = 17, X, St) SAKRI a. (Parhi 1999) ， 实 现 高 阶 MADF fih 
发 器 P， 其 中 XX 是 第 i 个 维度 的 一 个 大 小 为 x( 引 的 nn 维 符 号 ,使 用 过 程 如 下 。 
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1) 由 式 (11-11) 确定 横向 缩放 系数 Q. 
n-l a 
e = [二 末世 (11-11) 
Qc ico Xp! 
2) 用 系数 O 缩放 所 有 边缘 时 延 。 缩 放 原始 输出 时 延 到 长 度 (@ -1) xL, L 
是 原 流水 线 阶段 的 数目 。 
3) 所 有 纵向 时 延 的 纵向 缩放 系数 己 由 式 (11-12) 给 出 。 
S 


ip n (11-12) 


11.6 专用 硬件 网 络 的 系统 级 设计 与 开发 


本 节 将 概述 两 个 例子 ， 即 归 一 化 格 型 滤波 器 (Normalized Lattice Filter, 
NLF) 和 固定 波束 形成 器 ， 以 表明 上 一 节 中 所 述 的 特点 。 


11.6.1 设计 示例 : NLF 


为 了 表明 此 架构 的 合成 和 开发 方 
法 的 有 效 性 ， 它 被 应 用 于 8 阶 的 NLF 
设计 问题 。MADF 图 如 图 11-25 所 示 ， 
NLF 触发 器 作为 本 设计 示例 在 专用 硬 图 11-25 8 阶 NLF 的 MADF 图 
件 中 实现 的 唯一 部 分 。 

如 图 11-25 所 示 ，src 和 sink 阵列 生成 记 由 NLF 数组 处 理 的 8 个 标量 符号 数 
组 。 设 计 者 通过 控制 画布 上 NLF 触发 器 的 变量 y 来 控制 NLF 触发 器 数组 的 大 小 。 
反之 ， 就 确定 了 NLF 触发 器 数组 每 个 元 素 端口 数组 的 大 小 n。 知 要 测试 此 MADF 
的 合成 及 开发 方法 的 有 效 性 ， 则 Ps 的 SFG 结构 合成 能 力 仅 限于 重 定时 ( 即 提前 
进行 结构 开发 ， 如 在 折 又 /展开 之 前 )， 实 现 优化 的 重点 完全 放 在 MADF 的 设计 
和 探索 能 力 上 。Ps 对 C, - 115 1b 11 的 标量 符号 的 操作 ， 通 过 最 大 化 配置 数目 
实现 SFO 灵活 性 最 大 化 。 目 标 设备 是 Virtex - I Pro™ 族 可 实现 的 最 小 的 可 能 成 
员 。 这 使 有 效 合 成 两 个 目标 设备 具有 具体 设计 规则 : 

1) (P, Q) =(1, 1) 时 , Dy, = FDE 

2) M P»1Hf, Dype - DisRAM (RAMI16xls)， 其 他 D,,,。 = SRLI6 + FDE 

C,- {16 1b 1} 的 8 BY NLF Ay SFG 如 图 11-26a 所 示 ，NLF 阶段 的 SFG 如 
图 11-27a 所 示 。 如 果 它 的 结构 拟 建 的 最 低级 组 件 〈 加 法 器 和 乘法 器 ) 实施 使 用 
单 级 流水 线 的 黑箱 组 件 (当今 的 FPGA 经 常 如 此 ) , IA NLF 结构 的 一 个 特点 是 
结构 中 的 36 递归 循环 ， 当 两 个 流水 线 阶段 相连 时 ， 重 要 的 循环 发 生 。 对 于 单 级 
流水 线 的 加 法 器 和 乘法 器 ， 有 流水 线 周期 ，(aw) ， 有 4 个 时 钟 周 期 。 因 此 由 式 


Xi 
(11-11), Ord xs" 
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11-26 NLF 的 SFG、 流 水 线 结构 和 WBC 
a) 8 K NLF 的 SFG b) 流水 线 NLF 结构 c) NLF 的 WBC 


基本 处 理 器 P, 通过 分 层 SFG 结构 合成 创建 ， 并 生成 如 图 11-26b 所 示 的 流 
水 线 架 构 和 如 图 11-27b 所 示 的 每 个 阶段 的 结构 。 横 向 和 纵向 的 时 延 缩 放 和 重新 








关键 循环 : 两 个 乘法 器 (2*1 个 时 钟 周期 ) 
+ 两 个 加 法 器 (2*1 个 时 钟 周期 ) 
二 4 个 时 钟 周期 





c) 
11-27 多 阶 NLF 的 SFG、 流 水 线 结构 和 WBC 
a) BBY NLF 的 SFG b) 流水 线 多 阶 NLF c) 多 阶 NLF AY WBC 


第 11 章 ATMA FPGA 设计 265 





定时 后 ，NLF 和 WBC 阶段 结构 如 图 11-26c 和 图 11-27c 所 示 。 

3 个 不 同 的 y 值 对 给 定 结构 的 合成 不 同 。 ?BS - NLF, {BS -NLF 和 8 BL -NLF 
是 y 分 别 为 8，2 和 1 时 的 生成 结构 ， 每 个 VP 在 数据 流 对 撞 时 交叉 共享 处 理 一 个 
68 元 矢量 (f BS - NLF), ， 结 果 也 用 来 说 明 WBC 结构 的 灵活 性 。4 元 矢量 符号 
(4BS-NLF,,) 的 16 流 模块 处 理 示 例 也 在 表 11-4 中 引用 。 这 些 结果 说 明了 核心 
形成 与 高 级 结构 开发 方法 的 有 效 性 。 通 过 权衡 族 的 触发 器 数目 、 每 个 触发 器 的 符 
号 大 小 和 MASDF 触发 器 循环 调度 的 功能 数目 ， 转 化 MASDF 规格 ， 达 到 无 需 重 
新 设计 的 有 效 优化 方法 。 

表 11-4 Virtex - II Pro FPGA 上 的 NLF 发 送 位 置 和 路 径 合 成 结果 










吞吐 量 
(M 样本 /s) 
397.4 












;BS - NLF 





ls 
$8 BS - NLF 





实施 初期 (y =8, ?BS - NLF) 创建 一 个 8 元 素 VP 数组 。 鉴 于 大 量 的 乘法 器 
(mult18) 执行 所 需要 的 最 小 设备 可 以 是 XCV2VP70。 不 过 ， 鉴 于 最 初 的 WBC 结 
构 在 流水 线 期 间 无 效 ， 因 此 把 y 减少 到 2 产生 两 个 4 元 矢量 处 理 器 (GBS - NLF) 
以 几乎 相同 的 吞吐 量 ， 使 所 需 硬件 资源 的 显著 减少 。 这 相当 于 每 个 VP 无 需 额 外 
硬件 时 ， 吞 吐 量 增加 了 3.9 倍 。 所 需 能 入 式 乘 法 器 数目 的 大 量 减少 还 允许 在 小 得 
多 的 XC2VP20 设备 上 执行 。 减 小 y 仍 离 1 很 远 ， 产 生 单 独 的 S 元 素 矢 处 理 器 
(4BS - NLF)。 减 少 了 吞吐 量 ,， 很 大 程度 上 节省 了 硬件 。 现 在 ，NLF 数组 可 以 在 
更 小 的 XC2VP7 设备 上 实现 。 

此 示例 展示 了 MADF 合成 方法 可 以 通过 简单 的 系统 级 设计 空间 开发 来 达到 
很 好 的 执行 结果 。 使 用 单独 的 流水 线 核心 ， 这 种 方法 已 启用 高 度 有 效 的 结构 
(一 对 一 映射 有 效率 的 3.9 倍 ) ， 很 容易 生成 ， 且 比 SFC 结构 合成 更 简单 且 更 连 
贯 。 此 外 ， 通 过 操纵 单个 DFG 级 参数 ， 本 设计 示例 可 以 在 变化 多 端的 实施 要 求 
下 自动 生成 应 用 ， 使 设备 的 复杂 性 数量 级 减少 。 这 说 明了 作为 一 个 系统 级 方法 ， 
基于 核心 的 设计 流 与 高 度 有 效 的 执行 结果 和 快速 设计 空间 开发 能 力 。 


11.6.2 设计 示例 : FBF 系统 


波束 形成 为 雷达 、 声 纳 、 生 物 医学 和 通信 应 用 的 空间 滤波 提供 了 有 效 和 灵活 
的 方法 (Haykin 1986)。 波 束 形成 器 通常 用 于 被 放置 在 不 同 的 位 置 的 传感器 阵 
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列 ， 以 便 它们 能 够 通过 接收 传播 波 场 采样 “ 听 ” 到 接收 信和 号。 固定 波束 形成 器 
(Fixed Beamformer, FBF) 的 结构 如 图 11-28 所 示 。 

FBF 样品 对 个 传感器 的 复杂 数据 对 撞 ， 并 对 输出 的 w 个 样品 逐个 执行 独 
Xr FIR 滤波 和 缩放 ， 引 导 空 间 对 特定 目标 的 波束 形成 器 响应 常数 加 权 和 矩阵 向 量 的 
各 个 元 素 。 缩 放 值 都 相 加 。 作 为 目标 ， 当 该 波束 形成 器 有 靶 向 时 ， 波 束 形 成 器 的 
平均 输出 功率 最 大 化 。FBF 系统 的 结构 非常 有 规律 ， 并 可 以 利用 MADF 建 模 域 
提供 广泛 而 有 效 的 设计 空间 开发 。MADF 的 FBF 算法 如 图 11-29 所 示 。 





图 11-28 固定 波束 形成 器 概况 


<n> <n> 

<n> 1 1 1 

T @ PR >G ni Q ó sum © ><out] 
1 l<n> 


图 11-29 固定 波束 形成 器 的 MADF 图 


MADF 图 由 一 组 输入 数组 组 成 ， 每 组 用 于 一 个 传感器 。 这 与 DRx 和 multK 
触发 器 族 的 成 员 ， 以 及 总 触发 器 〈 再 次 以 黑色 表示 端口 族 ) 的 端口 族 i 的 大 小 密 
切 相 关 。 因 此 ， 通 过 改变 N 的 值 ， 算 法 结构 的 参数 化 控制 被 用 于 可 变数 量 的 传 
感 器 。 算 法 结构 紧密 耦合 的 实现 结构 ， 可 紧密 控制 应 用 中 DRx 和 multK 核 的 
数量 。 

此 设计 示例 目的 在 于 ，N =128 且 面 向 Xilinx Virtex II Pro 100 FPGA 的 设计 
过 程 。 核 心 库 仅 由 复杂 的 乘法 器 、 加 法 器 和 总 核 组 成 ， 因 此 整个 系统 就 是 由 这 些 
组 成 的 。DRx 滤波 器 的 长 度 为 32 抽 头 。 已 知 此 结构 需要 16896 个 乘法 器 ， 期 户 
适应 目标 设备 〈 其 中 只 有 444 个 可 用 ) 上 提供 的 18 位 乘法 器 ， 这 提出 了 一 个 高 
度 资源 约束 下 的 设计 问题 。 在 这 里 提供 两 个 方法 来 帮助 解决 这 一 问题 功能 已 经 
实现 的 结构 操作 和 每 个 VP 的 多 数据 流 处 理 。 

若 要 探索 应 用 中 每 个 内 核 处 理 的 通道 数量 ， 则 每 个 触发 器 可 处 理 MADF 算 
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法 的 多 个 通道 。 这 可 使 用 图 11-30 所 示 的 MADF 结构 。 此 处 介绍 的 第 2 个 参数 
M， 表 示 用 于 处 理 N 通道 数据 的 触发 器 数目 。 注 意 ，DRx 和 multK 触发 右上 的 端 
口 都 是 大 小 为 M 的 族 ， 来 表示 以 循环 方式 共享 N/M 数据 流 的 处 理 (Mc Allister 
等 2006) 。 对 于 合成 ， 种 类 繁多 的 合成 选择 可 用 于 选 定 设备 上 的 FBF 专用 硬件 系 
统 ， 其 广泛 的 实时 性 能 和 所 需 资源 汇总 在 表 11-5。 可 编程 逻辑 (LUT/FDE) 与 
VP WE (WBC, PB 和 CCW) 的 比例 细 目 见 表 11-6。 


128 <m> <m> 

Sene «128/m» <128> 

Das Eo E Pe 
图 11-30 固定 波束 形成 器 的 MADF 图 


表 11-5 Virtex - I Pro FPGA 上 的 FBF 发 送 位 置 和 路 径 合成 结果 











ica | 3493/16128/8448/5790 99 528/256/128/64 I 
: (8)/(37)/(19)/(6) (22) (1)/(1)/(1)7(1) f 
sai) | 4813/16128/8448/10844 198 512/256/128/64 UM 
i (11)/(37)/ (19) /(11) (45) (D/70)/ 0270) 
aca) | 3544/16128/8448/21576 396 528/256/128/64 aT 
f (19)/(37)/(19)/(22) (89) (1)/(1)/(1)/) à 
(uy | 3490/0/24576/5278 99 528/256/128/64 Ra 

(8)/(0)/(56)/(5) (22) (1)/(1)7(1)7(1) : 
ju | 4812/0/24576/8892 198 528/256/128/64 ze 

(11)/(0)/(56)/(9) (45) (1)/(1)/Q)/(1) 
acy | 3554/0/24576/17672 396 528/256/128/64 Lem 

(19)/(0)/(56)/(18) (89) (1)/(1)/(1)7(1) ; 





3211-6 FBF 实现 源 分 类 
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( 续 ) 


























初期 实现 由 一 个 可 处 理 128 元 向 量 的 单 核 组 成 〈 即 128 输入 流 之 间 交 叉 共 
E); 增加 为 2 和 4 的 M 值 可 分 别 增加 2.2 和 4.3 倍 吞吐 量 ; 应 该 指出 的 是 ， 用 
于 多 流 共享 的 结构 表现 出 了 最 少 的 资源 差异 。 这 是 靶 可 移植 性 的 核心 结构 抽象 化 
的 直接 结果 。 同 时 在 LUT (如 16 位移 位 寄存 器 ) 或 VP 中 ，WBC 封装 的 Dis- 
RAM 的 费用 昂贵 (高达 开 销 的 35% ) ， 其 主要 部 分 完全 需要 存储 芯片 上 滤波 器 
抽 头 和 SFO 参数 库 中 的 乘法 器 权重 。 如 果 不 利 用 片上 骨 入 式 Block RAM， 则 这 种 
存储 弊端 是 不 可 避免 。 此 外 ，M 值 增加 ， 由 于 抽 头 权重 的 数目 与 M 无 关 ， 因 此 
开销 水 平 降低 。CCW 带 来 少量 LUT HH, tem REA MUX F5, MUX F6, 
MUX F7 和 MUX F8 的 FPGA MUX 来 实现 转换 。 这 些 都 不 在 除 设计 以 外 的 地 方 使 
用 ， 因 此 很 充裕 。 最 后 ， 应 该 指出 的 是 在 系统 中 的 所 有 核心 都 100% 地 利用 ， 取 
决 于 输入 数据 。 


11.7 总 结 


本 章 描述 了 FPGA 专用 硬件 网 络 的 系统 级 设计 和 优化 的 可 行 技 术 。 需 要 重视 
的 是 ， 在 工业 系统 设计 流 中 ， 专 用 的 硬件 一 般 会 形成 钥 入 式 DSP 系统 的 一 小 部 
分 ， 因 此 它 的 设计 、 集 成 和 重用 应 妥善 借用 给 工业 异 构 系统 设计 流 。 

通俗 地 说 ， 快 速 DSP 系统 实现 方法 都 基于 数据 流 中 心 。 虽 然 流 水 线 DSP 核 
的 快速 执行 本 身 就 是 数据 流 设计 流量 ， 但 步骤 的 最 终 产 品 的 集成 、 重 用 、 操 作 ， 
以 及 系统 的 软件 部 分 是 刚性 的 ， 不 灵活 的 。 随 着 方法 的 日 益 普 及 ， 这 种 情况 一 定 
会 被 纠正 。 

本 章 概述 了 大 量 的 技术 ， 来 连通 系统 设计 师 所 需要 的 和 专用 的 硬件 所 允许 的 
缺口 。 为 产生 专用 硬件 ， 接 纳 灵 活性 势 在 必 行 ， 本 节 展 示 可 有 效 地 合并 到 异 构 系 
统 设计 流 中 的 专用 硬件 的 创建 、 操 作 和 重用 。 

MADF 作为 一 种 DSP 系统 的 建 模 方法 ， 帮 助 封装 了 DSP 系统 灵活 性 所 需 的 
方面 ， 特 别 是 利用 数据 级 并 行 性 和 控制 如 何 影 响 实施 方面 的 能 力 。 这 已 被 证 实 是 
一 种 有 效 的 方法 ; 如 一 个 NLF 滤波 器 设计 示例 ， 在 设计 方法 上 取得 了 令 人 印象 
深刻 的 成 就 。 这 包括 通过 简单 的 DFC 级 转换 ， 增 加 的 近乎 4 倍 的 执行 效率 ， 否 


第 11 章 RFRA HHH FPGA 设计 269 





定 了 对 复杂 SFC 操作 的 需要 。 此 外 ， 只 通过 从 图 级 操纵 单个 参数 ， 生 产 不 同 知 
吐 量 和 不 同 物理 资源 需求 的 NLF 应 用 (在 设备 复杂 性 的 数量 级 变化 ) ， 这 种 方法 
的 快速 设计 空间 开发 已 证 明 有 效 。 男 外 ， 在 FBF 设计 示例 中 ,启用 快速 设计 空 
间 开 发 ， 通 过 单个 DFG 参数 操作 生产 各 种 专用 设备 ， 证 明了 此 方法 的 有 效 性 。 
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第 12 章 自 适 应 波束 形成 器 实例 


第 8 章 包 含 了 用 基于 SFG 的 DSP 系统 来 创建 高 效 的 电路 架构 。 在 此 描述 中 ， 
RER, 许多 实现 可 以 用 一 种 通用 的 ， 具 有 流水 线 级 作 控 制 参数 的 方式 被 创建 出 
来 。 第 10 章 指出 ， 如 果 可 参数 化 的 这 个 特点 在 此 参数 范围 里 可 用 于 高 效 的 实现 ， 
那么 这 种 通用 架构 的 开发 能 在 很 大 范围 里 得 到 应 用 。 这 只 能 通过 识别 DSP 核心 
功能 的 关键 参数 得 以 实现 ， 然 后 灵巧 地 派生 出 一 个 允许 这 些 参数 被 改变 的 可 伸缩 
架构 ， 同 时 仍然 可 以 保持 线性 的 伸缩 性 能 。 这 要 求 高 级 设计 优化 与 第 8 章 中 强调 
的 技术 结合 来 使 用 。 

本 章 主要 讲述 自 适应 波束 形成 的 一 个 基于 QR 的 IP 核 的 开发 。 这 个 例子 涵 
盖 了 大 量 的 过 程 阶 段 ， 包 括 从 数学 算法 的 开发 到 一 个 可 伸缩 架构 的 设计 。 焦 点 是 
用 于 抓 取 原始 架构 的 技术 ， 然 后 将 构架 映射 并 折 秋 ， 得 到 一 个 高 效 并 且 可 伸缩 的 
实现 来 满足 系统 的 要 求 。 涵 盖 了 可 参数 化 的 定时 和 控制 管理 的 问题 ， 这 涉及 早期 
的 技术 。 

本 章 由 以 下 部 分 组 成 。12. 1 节 将 给 出 一 个 自 适应 波束 的 介绍 并 且 将 在 12. 2 
节 涵 盖 通 用 设计 的 过 程 。12. 3 节 将 突出 自 适应 波束 的 应 用 并 且 12. 4 节 将 涉及 基 
于 QR 的 算法 发 展 的 内 容 。12. 5 节 中 包含 程序 构架 的 算法 并 且 在 12. 6 节 将 给 出 
适用 于 实现 的 高 效 架构 算法 。 一 系列 不 同 的 架构 被 优化 ， 然 后 这 些 构架 被 用 于 优 
化 在 12.7 节 中 给 出 的 通用 架构 。 在 12. 8 节 将 给 出 架构 被 重 定时 的 细节 ， 以 及 处 
理 器 协作 的 细节 ， 因 此 在 12. 9 节 将 突出 可 参数 化 的 QR 架构 的 实现 。12. 10 节 将 
探讨 这 个 架构 的 通用 控制 问题 。 最 后 ， 一 个 波束 应 用 在 12. 11 节 得 到 描述 而 且 接 
下 来 作 了 总 结 。 


12.1 引言 


自 适应 波束 形成 是 一 种 滤波 的 形式 ， 从 天 线 阵列 中 接收 输入 信号 ， 多 个 空间 
上 分 离 的 天 线 ， 被 称 作 为 一 个 天 线 阵列 。 通 常 它 的 功能 是 抑制 信号 ， 在 波束 图 中 
的 干扰 方向 上 ， 通 过 引入 零 陷 来 抑制 除了 想 要 “接收 方向 ”的 其 他 每 一 个 方向 
上 的 信和 号。 波束 形成 器 的 输出 是 天 线 阵列 输入 信号 的 一 个 加 权 线 性 结合 ， 它 由 复 
杂 的 数字 方程 来 表示 ， 由 于 传人 的 数据 有 空间 要 素 ， 因 此 可 得 到 在 幅度 和 相位 中 
的 最 优 值 。 

图 12-1 所 示 为 用 一 个 主 天 线 和 大 量 附 属 天 线 阐述 的 例子 。 主 要 的 信号 构成 
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是 来 自 有 着 高 度 指 向 性 的 主 天 线 的 输入 。 附 属 的 信号 包含 了 干扰 的 样 值 ， 可 能 会 
淹没 掉 想 要 的 信号 。 滤 波 器 通过 移 除 与 主要 输入 信号 一 样 的 信号 来 消除 此 类 干 
Ji, 来 自 附 属 和 主要 天 线 的 输入 数据 被 反馈 到 自 适 应 滤波 器 中 ， 如 图 12-1 所 示 ， 
从 中 进行 权重 计算 。 这 些 权重 如 图 12-1 所 示 被 应 用 于 时 延 的 输入 数据 上 来 产生 
输出 波束 。 这 是 本 章 重点 ， 即 一 个 自 适应 计算 权重 算法 的 选择 和 发 展 。 

所 需 信号 





T 来 自 天 线 阵列 
Th 的 复杂 输入 


附属 天 线 


输出 


图 12-1 一 个 消除 干扰 的 自 适 应 波束 形成 器 的 框图 。 摘 自 Lightbody et al., © 2003 IEEE 


有 从 军用 雷达 应 用 到 通信 、 医 学 应 用 都 可 以 使 用 的 自 适应 波束 形成 器 应 
(Athanasiadis 等 2005, Baxter 和 McWhirter 2003, Choi 和 Shim 2000, de any 
wer“ 2000, Hudson 1985, Wiltgen 2007) 。 由 于 这 样 潜在 的 一 个 核心 应 用 ， 本 
章 将 通过 调查 一 个 IP 核 的 发 展 来 演示 这 种 大 量 的 自 适 应 波束 形成 器 应 用 中 关键 
计算 的 建立 。 


12.2 通用 设计 过 程 


在 一 个 新 硬件 的 核心 发 展 中 ， 会 跟随 着 一 系列 的 设计 阶段 。 图 12-2 所 示 为 

个 被 应 用 于 一 次 性 实现 的 发 展 中 的 典型 设计 进程 的 概述 。 它 也 给 出 了 在 通用 
IP 核 设计 中 要 额外 考虑 的 方面， 正如 第 10 章 中 突出 的 。 大 量 的 关键 问题 得 到 了 
处 理 。 

这 个 进程 从 一 个 问题 的 详细 说 明和 设计 目的 开始 。 这 时 候 ， 会 对 使 用 的 算法 
进行 优化 来 开发 一 个 通用 的 终端 产品 。 这 些 优化 包括 在 通用 的 核心 发 展 中 最 原始 
的 时 间 和 金钱 方面 的 额外 开销 ， 因 此 如 果 这 个 IP 核 在 未 来 的 算法 中 得 到 使 用 ， 
则 这 个 开销 将 得 到 更 多 的 回报 ， 这 一 点 是 肯定 的 。 这 个 发 展 可 适用 于 一 系列 的 应 
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用 吗 ? 或 者 说 仅仅 是 一 个 一 次 性 的 需求 ? 


一 个 通用 设计 过 程 







算法 的 选择 | 
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| 性 能 的 
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电路 重 定时 
子 模块 算术 单元 ， mne 
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算法 因素 ， 例 如 输入 的 
数量 ，SNR 的 有 线 精度 ， 
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水 线 级 别 ; 定时 和 控制 
子 模块 的 选择 ， 例 如 特 
定 于 目标 技术 的 运算 单 
元 或 者 存储 模块 














图 12-2 通用 设计 进程 。 摘 自 Lightbody et al. ，@ 2003 IEEE 


分 析 ， 然 后 来 决定 最 合适 的 算法 。 算 法 的 选择 是 关键 ， 因 为 成 功 的 硬件 实 
现 ， 要求 详细 理解 在 数学 功能 上 是 如 何 实现 的 。 这 会 影响 一 个 电路 在 尺寸 、 关 键 
路 径 和 功 耗 上 的 所 有 性 能 。 

核心 功能 的 识别 。 可 能 只 有 一 个 关键 组 件 是 适合 作为 IP 核实 现 的 。 这 些 功 
能 会 从 一 个 应 用 传递 到 另 一 个 应 用 中 ， 因 此 在 未 来 的 应 用 中 决定 预期 的 规格 变化 
是 很 有 必要 的 。 是 否 所 有 变量 在 通用 设计 中 都 可 用 参数 来 定义 ? 或 者 其 他 的 技术 
会 要 求 有 一 定 的 设计 灵活 性 ? 

字 长 分 析 是 设计 中 用 来 决定 固定 / 浮 点 算法 及 设计 中 凑 整 和 截断 的 参数 。 

架构 设计 细节 会 决定 模块 速率 和 尺寸 。 这 将 取决 于 目标 技术 或 特定 的 FPGA 
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设备 ， 其 会 影响 层次 上 并 行 性 的 分 析 模 块 和 流水 线 的 选择 。 它 是 一 个 相互 关联 的 
循环 ， 如 图 12-2 所 示 ， 每 一 个 因素 都 影响 了 其 他 的 因素 。 所 有 这 些 因素 都 对 最 
终 的 体系 结构 设计 有 影响 ， 它 是 多 维 优化 的 ， 没 有 一 个 参数 的 运行 是 孤立 的 。 

架构 参数 的 确定 。 在 通用 设计 中 ， 在 参数 上 会 设 定 不 同 的 合理 范围 。 例 如 ， 
不 同 的 字 长 参数 将 对 要 满足 某 一 性 能 标准 的 流水 线 级 产生 连锁 影响 。 

通用 设计 选择 会 包括 一 些 目的 实现 ， 比 如 在 ASIC 和 FPGA 之 间 特 定 代码 切 
换 的 参数 。 甚 至 在 某 一 实现 平台 中 , 在 适当 的 地 方 应 该 有 参数 来 支撑 目标 技术 和 
设备 ， 因 此 来 充分 利用 它们 的 性 能 及 板 载 处 理 器 或 算术 单元 的 实用 性 。 

通过 对 架构 解决 方法 的 精炼 来 满足 性 能 标准 会 减少 面积 成 本 。 这 包括 了 第 8 
章 中 的 重点 内 容 一 一 折 生 技术 的 应 用 ,但 是 一 个 成 功 的 通用 设计 的 关键 技术 ， 要 
求 有 可 扩展 的 控制 电路 和 可 扩展 的 运行 调度 。 生 成 一 个 架构 来 满足 一 个 更 大 设计 
的 性 能 标准 ， 但 是 在 一 个 设计 上 发 展 通用 的 调度 和 控制 ， 在 复杂 程度 上 是 不 
同 的 。 

算法 的 软件 建 模 在 设计 发 展 中 是 很 有 必要 的 ， 最 初 是 为 了 核实 和 分 析 有 限 精 
确 度 的 影响 。 一 个 模型 为 了 进一步 发 展 ， 涉 及 测试 数据 硬件 体系 结构 的 开发 ， 创 
建 实现 的 HDL 代码 验证 和 综合 网 表 。 对 于 通用 IP 核 ， 软 件 建 模 是 复 用 设计 进程 
中 的 一 个 重要 部 分 ， 分 析 仍 然 需 要 按照 开始 就 确定 的 标准 实施 ， 比 如 新 应 用 的 
SNR 和 数据 字 长 。 


12.3 自 适 应 波束 形成 规范 


这 个 设计 的 规范 是 为 了 拥有 一 个 通用 的 核心 ， 在 未 来 自 适 应 波束 形成 的 应 用 
中 ， 这 个 核心 可 以 得 到 快速 的 再 发 展 。 设 计 这 样 一 个 通用 架构 的 进程 应 考虑 开发 
时 间 ， 并 且 在 决定 应 用 重点 方法 之 前 应 该 考虑 架构 的 未 来 潜力 。 但 是 ， 如 果 这 样 

一 个 通用 核心 有 复 用 的 潜力 ， 那 么 还 是 能 得 到 收益 的 ， 并 且 会 提供 强大 有 用 的 设 
计 库 。 

自 适应 波束 形成 是 一 种 适用 于 一 些 范 围 内 的 通用 算法 ， 比 如 从 信号 的 医学 分 
离 到 军用 雷达 应 用 。 通 用 设计 开发 的 关键 因素 是 ， 在 某 范 围 内 自 适应 波束 形成 的 
应 用 程序 的 关键 组 成 部 分 在 一 定 程度 上 是 一 致 的 ， 这 样 才 适 合 开 发 成 一 个 PP 核 。 
为 了 扩展 核心 的 潜力 ， 就 需要 有 处 理 不 同 种 类 问题 的 能 力 ， 比 如 以 下 问题 。 

1. 输入 的 数量 

波束 形成 器 的 设计 需要 支持 各 种 各 样 的 附属 输入 和 主要 输入 ， 如 图 12-3 所 
示 。 因 为 输入 数据 是 来 自 N 天 线 的 整个 模块 的 输入 数据 ， 所 以 设计 了 计算 权重 
的 方法 。( 一 般 来 说 ， 虽 然 只 需要 输入 数据 的 部 分 ， 但 是 应 该 至 少 需要 2 的 数 
据 样 值 ) 。 从 相同 的 输入 数据 模块 ， 到 产生 波束 形成 器 输出 的 整体 过 程 中 ， 都 需 
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来 自 天 线 阵 列 的 复杂 输入 : 
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图 12-3 多 波束 自 适应 波束 形成 器 系统 。 摘 自 Lightbody et al. , © 2003 IEEE 


要 进行 权重 计算 。 对 于 最 后 的 设计 ， 一 个 更 加 高 效 的 后 台 处 理 器 得 到 了 发 展 ， 比 
如 在 Shelhed 和 McWhirter (1993) 中 描述 的 权重 。 

2. 支持 一 些 FPGA 设备 和 /或 ASIC 技术 

通过 添加 一 些 额外 的 代码 及 参数 ， 同 样 的 核心 设计 能 被 重新 赋予 不 同 的 技 
术 。 这 样 做 可 以 使 FPGA 针对 ASIC 的 原型 所 设计 。 这 也 要 顾及 低产 量 的 实现 。 
不 敢 保证 ASIC 设计 的 开销 。 同 样 的 ， 形 成 ASIC 铸造 三 的 快速 的 可 再 发 展 核心 
能 力 会 有 着 很 大 的 利润 。 

3. 支持 一 系列 性 能 标准 的 能 力 

在 自 适应 波束 形成 中 的 应 用 ， 创 造 了 一 个 大 跨度 的 变化 所 需 的 功能 。 对 一 些 
应 用 ， 比 如 移动 通信 、 功 率 考 虑 及 芯片 面积 ， 都 可 能 是 设备 的 驱动 标准 。 对 其 他 
而 言 ， 一 个 高 数据 速率 的 系统 能 成 为 主要 的 目标 。 

4. 可 扩 缩 架构 

为 了 在 支持 一 个 大 范围 设计 标准 时 拥有 灵活 性 ， 一 个 可 扩 缩 架构 需要 通过 提 
高 物理 便 件 的 级 别 来 匹配 规范 的 需求 。 驱 动 可 扩 缩 架构 的 一 些 关 键 点 是 : 

1) 想 要 的 数据 速率 ; 

2) 尺寸 限制 ; 

3) 时 钟 速率 限制 ; 

4) 功率 限制 。 

系统 要 求 的 时 钟 速率 是 依靠 架构 设计 和 目标 技术 来 实现 的 。 具 体 的 系统 要 求 
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使 设计 者 选择 合适 的 目标 技术 并 考虑 对 其 他 性 能 标准 的 权衡 ， 比 如 功率 和 尺寸 。 

5. 字 长 

不 同 的 应 用 会 要 求 不 同 的 字 长 ， 因 此 应 该 支持 一 定 范围 内 的 字 长 。 

6. 流水 线 级 

依靠 设计 中 的 流水 线 来 减少 关键 路 径 ， 可 以 达到 理想 的 时 钟 速率 。 假 如 在 设 
计 的 子 模块 中 选择 一 个 流水 线 ， 则 会 对 性 能 有 很 好 的 提升 。 

这 些 参数 会 形成 一 个 从 通用 的 架构 中 ， 开 发 自 适 应 波束 形成 器 的 基本 准则 。 
为 了 能 完成 参数 化 进程 ， 相 关 的 软件 模型 和 测试 程序 应 该 有 同 级 别 的 可 扩展 性 。 

本 章 剩 余 的 内 容 会 描述 在 发 展 中 ， 适 用 于 参数 化 和 快速 设计 原型 的 通用 自 适 
应 波束 形成 器 核心 的 设计 阶段 。 有 人 提出 了 一 个 概述 ， 说 明了 从 问题 到 数学 算法 
的 过 渡 。 从 中 确定 了 一 个 合适 的 解决 方案 并 且 派 生出 了 一 个 架构 。 在 后 续 的 设计 
中 ， 提 出 了 一 个 可 重复 使 用 的 设计 方法 的 重点 ， 目 的 是 开发 出 一 个 通用 的 核心 ， 
形成 一 个 自 适应 波束 形成 器 应 用 的 关键 组 件 。 


12.4 算法 的 开发 


一 个 自 适应 滤波 器 的 目标 是 可 以 根据 运行 的 环境 持续 优化 自身 。 许 多 数学 上 
的 算法 和 相当 复杂 的 算法 ， 都 是 根据 一 个 最 优化 标准 来 计算 滤波 器 权重 的 。 典 型 
的 ， 为 了 最 小 化 误差 函数 。 这 个 误差 函数 是 理想 性 能 和 实际 性 能 之 间 的 差 。 如 图 
12-4 所 示 ， 展 示 了 这 个 进程 。 


X(n) y(n) 


x(n) 系统 输入 数据 
y(n) 预期 的 系统 响应 
Yen) ”预期 响应 的 评估 
y(n)-y« (n) = e(n) 评估 误差 
w(n) 自 适 应 权重 向 量 
w(n-l) 更 新 自 适应 权重 向 量 





图 12-4 自 适应 滤波 系统 
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大 量 的 研究 调查 用 不 同 的 方法 来 计算 滤波 器 权重 。 由 Haykin (2002) 提出 
的 自 适 应 滤波 器 理论 对 自 适应 滤波 器 做 出 了 一 个 全 面 的 介绍 。 要 求 先 详细 地 分 析 
算法 的 复杂 度 和 性 能 ， 再 来 决定 一 个 合适 的 算法 。 但 是 在 为 一 个 具体 应 用 找到 最 
适宜 的 自 适 应 算法 的 过 程 中 并 没有 特别 的 技巧 。 选 择 合适 的 算法 ， 归 根 结 底 是 算 
法 的 特征 范围 的 权衡 ， 比 如 : 

1) 收敛 速率 ， 也 就 是 自 适 应 算法 到 达 一 个 优化 解决 方案 限度 的 速率 ; 

2) 稳 态 误差 ， 即 接近 一 个 最 佳 的 解决 方法 ; 

3) 跟踪 输入 数据 中 的 统计 变量 的 能 力 ; 

4) 计算 的 复杂 度 ; 

5) 处 理 不 良 输入 数据 的 能 力 ; 

6) 在 实现 中 使 用 字 长 变化 的 敏感 度 。 

用 于 自 适应 滤波 器 的 递归 算法 有 两 种 方法 ， 即 Wiener 滤波 器 理论 和 最 小 二 
次 方 理论 (Least - Squares，LS) ,分 别 引出 了 在 第 2 章 中 提 到 的 LMS 和 RES 算 
法 。 这 些 算 法 选择 的 关键 是 算法 的 复杂 度 和 性 能 。 


12.4.1 自 适 应 算法 


相 比 于 LMS 解决 方案 ， 大 家 都 更 赞同 RLS 解决 方案 ， 可 以 在 静止 环境 提供 
更 加 优秀 的 收敛 速率 。 因 此 一 个 RLS 方案 在 非 平稳 的 环境 下 可 能 会 有 更 快速 的 
反应 , 但 是 这 并 不 是 一 个 直接 简单 的 比较 ( Eleftheriou 和 Falconer 1986, Eweda 
1998, Eweda 和 Macchi 1987, Haykin 2002, Kalouptsidis 和 Theodoridis 1993)。 从 
这 些 参考 文献 中 可 以 得 知 ， 一 般 着 眼 于 以 下 几 方 面 。 

一 般 而 言 ， 在 标准 情况 下 RLS 算法 的 跟踪 性 能 和 收敛 速度 比 LMS 算法 更 好 ， 
特别 是 在 一 种 情况 下 ， 那 就 是 在 中 高 信 噪 比 的 情况 下 (Kalouptsidis 和 theodoridis 
1993) 。 

LMS 算法 的 收敛 速率 取决 于 步 长 的 选择 ， 步 长 越 大 收敛 速度 越 快 。 但 是 当 
步 长 过 大 时 ， 收 敛 速率 快 并 不 能 补偿 在 稳定 状态 下 速率 更 慢 时 ， 算 法 平滑 噪声 的 
好 处 。 这 里 有 一 些 在 最 开始 就 考虑 到 较 大 步 长 的 规范 版 本 ， 但 是 用 算法 处 理 它 的 
稳定 状态 时 步 长 会 被 减 小 (Bitmead 和 Anderson 1980, Kalouptsidis 和 Theodorides 
1993, Morgan 和 Kratzer 1996) 。 

RLS 算法 的 收敛 速率 不 依赖 于 输入 相关 矩阵 的 特征 值 的 传播 。 而 LMS 算法 
不 是 这 样 ， 因 为 当 相 关 和 矩阵 的 特征 值 传播 得 很 好 时 ， 我 们 宁愿 收敛 速率 慢 一 点 ， 
( Eweda 和 Macchi 1987) ， 也 就 是 特征 值 有 效 地 形成 一 个 收敛 时 间 常 数 ， 并 确定 
常数 的 大 小 由 ， 从 而 确保 稳定 性 (Eleftheriou 和 Falconer 1986) 。 

自 适应 算法 的 存储 器 决定 收敛 速率 。RLS 算法 包含 了 一 个 遗忘 因子 入 ， 它 对 
较 新 的 数据 有 着 更 重要 的 作用 。 它 的 值 在 0 ~ 1 之 间 并 且 对 决定 一 窗 数 据 有 所 作 
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FA, LS 方案 就 是 在 这 个 数据 上 实施 的 。 伴 随 着 较 大 的 和 值 ， 窗 口 长 度 会 变 长 并 
且 会 占用 一 个 更 大 的 存储 空间 。X 越 小 需要 的 存储 空间 越 小 ， 并 且 让 算法 能 够 在 
数据 中 跟踪 统计 的 变化 。 但 是 ，X 也 控制 着 收敛 速率 和 稳 态 误差 。 在 固定 的 环境 
中 ,和 接近 于 1 的 慢 适 应 性 能 可 得 到 最 好 的 稳 态 性 能 。 相 反 ， 更 小 的 和 的 值 会 导 
致 更 快 的 收敛 速率 但 是 也 会 导致 更 大 的 稳 态 误差 。 这 与 存在 于 LMS 算法 中 的 内 
存 收敛 关系 相似 ， 这 由 步 长 决定。 

优化 的 选择 归根 结 底 是 收敛 速率 、 稳 态 误 差 、 跟 踪 能 力 、 数 值 稳定 性 和 计算 
复杂 度 的 权衡 。RLS 算法 的 主要 缺点 是 它 的 计算 复杂 度 ， 但 是 随 着 技术 的 发 展 ， 
RLS 在 实时 应 用 中 的 使 用 变 得 可 行 。 这 里 提出 的 例子 中 ， 选 择 RLS 方案 比 选择 
LMS 方案 要 多 ， 这 都 归 因 于 收敛 速率 的 下 降 和 对 不 良 数据 敏感 度 的 下 降 。 


12.4.2 RLS 实现 


正如 第 2. 7.4 节 中 重点 强调 的 ， 标 准 RLS 算法 要 求 相 关 和 矩阵 的 明确 计算 ， 
pln) =X'(n)X(n)。 这 是 一 个 密集 型 的 计算 ，, 它 对 调整 问题 的 条 件数 量 是 有 影 
响 的 ， 这 会 为 了 达到 有 限 字 长 系统 的 稳定 性 ， 对 要 求 的 字 长 造成 负面 影响 。 要 得 
到 一 个 更 加 稳定 的 方式 可 以 使 用 权重 计算 ， 这 就 同时 避免 了 相关 矩阵 的 计算 和 逆 
用 QR 分 解 ，QR 分 解 是 一 种 具有 良好 数值 特性 的 正 交 三 角 化 。 

为 了 实现 自 适 应 滤波 器 权重 的 计算 ， 选 择 使 用 QR 分 解 作为 中 心算 法 (Gen- 
tleman 和 Kung 1981, McWhirter 1983) 。 


12.4.3 通过 QR 分 解 求解 RLS 
P x NN 维 的 数据 和 矩阵 闵 (n) 被 分 解 为 一 个 Nx NN 维 的 上 三 角 和 矩阵 R(n)， 通 过 
一 个 单位 矩阵 Q(n) 的 应 用 ， 变 成 了 
R(n) 
X = 12-1 
O(n) x(n) =[ 5] (12-1) 
XP, OFF 0 4, 假设 N < 已 , 由 于 @(z) 是 一 个 单位 矩阵 ， 因 此 
p(n) = X'(n)X(n) = X'(n)Q'(n)Q(n)X(n) = R'(n)R(n) (12-2) 


ZAE R(n) EBAY Cholesky 因子 b(n). HF O(n) Jg 
阵 ， 因 此 原始 系统 等 式 表达 为 


| J(n) || = Cn)e(n) | = Q")X(n)Wi s(n) + Q'G)y(n) 


R(n) u(n) 














(12-3) 
于 是 出 现 了 最 小 平方 权 向 量 wis (n) ， 必 须 满足 等 式 
R(n)wis(n) +u(n) =0 (12-4) 
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由 于 R(n) 是 一 个 上 三 角 和 矩阵 ， 因 此 通过 使 用 反 置 换 ， 权 重 的 问题 能 得 到 解 
决 。QR 分 解 是 这 个 QR 因 式 分 解 的 一 个 扩展 ， 这 使 得 当 新 数据 进入 数据 矩阵 时 ， 
矩阵 能 够 被 再 次 三 角 化 ， 不 必 从 原始 的 方 阵 格式 中 计算 三 角 化 。 换 而 言 之 ， 当 新 
数据 进入 时 它 更 新 了 旧 的 三 角 和 矩阵 。 数 据 和 矩阵 立 (n) 和 测量 向 量 y(z) 在 时 ， 通 
过 先前 结果 的 矩阵 和 向 量 以 一 种 递归 的 方式 被 表示 ， 并 且 新 的 数据 如 下 : 

A(n)X(n - 1) 
Xii | | 


Ea) (12-5) 


ree) (12-6) 


y(n) 
式 中 ,x (n) 和 y(n) 在 nn 时 刻 形成 了 额外 的 行 。 算法 的 二 次 方 根 的 形式 得 到 如 
下 实现 : | 


y(n) = | 


fee m x Lem 


1) 
rn) |+ Goo 


]wsc = = Q'(n J 


(12-7) 
其 中 , B 2A? 。 然 后 给 出 了 





T[BCn)R(C -1) B(n)u(n-1)] [R(n) u(n) TES 
2| x) y(n) I= | a(n)! VS 
计算 得 出 
R(n) u(n) 
W 一 12-9 
Po Pst «(ey (12-9) 
a(n) 与 后 面 的 最 小 二 乘 的 残留 e(n) 相 关 ， 在 时 刻 n 如 下 
e(n) = a(n)y(n) (12-10) 
Xm, 在 消除 x”(n) 过 程 中 产生 余弦 结果 y(n) 。 
RLS 的 QR 方案 的 高 级 关系 图 如 图 M zy — 0, n) 
12-5 所 示 。 
12.4.4 用 于 QR 因数 分 解 的 
Givens 旋转 
一 系列 数值 上 稳定 且 强 大 的 RLS 算 R(n-1) 
法 已 经 由 一 系列 QR 分 解 方法 得 到 了 改 
进 ， 比 如 Givens 旋转 (Gentleman 和 (其 中 en = y(n) ain) a(n) 


Kung 1981, Givens 1958, McWhirter 图 12-5 ”QR - RLS 方案 的 高 级 关系 图 


280 信号 处 理 系统 的 FPGA 实现 





1983), CORDIC (Hamill 1995) 及 Householder 变换 (Cioffi 1990，Liu 等 ”1990， 
1992, Rader 和 Steinhardt 1986), Givens 旋转 是 矩形 平面 旋转 ， 它 用 来 消除 一 个 矩 
阵 中 的 元 素 。 通 过 应 用 一 系列 的 连续 Givens 旋转 ， 一 个 矩阵 能 通过 消除 对 角 线 
之 下 的 元 素来 被 三 角 化 。 这 个 运算 被 称 作 QR 因 式 分 解 ， 比 如 一 个 矩阵 买 (m”) 被 
分 解 为 一 个 上 三 角 和 矩阵 R(n) 和 一 个 下 三 角 和 矩阵 O(n), WF: 
X(n) =Q(n)R(n) (12-11) 
X(n) FH HER RMF. YEA, EAA MK AACR 
为 0。 然 后 再 使 下 一 列 的 次 对 角 线 元 素 为 0， 以 此 类 推 ， 直 到 形成 等 价 的 上 三 角 
矩阵 。 
Givens 通过 一 系列 旋转 进行 这 个 运算 ， 它 使 用 一 个 2 x3 矩阵 的 例子 来 进行 
描述 ， 如 下 : 
D 912 i (12-12) 
Q4 Qi 43 
这 个 矩阵 通过 消除 元 素 被 转换 为 一 个 伪 三 角 和 矩阵 yy 。 这 是 通过 乘 以 旋转 矩 
阵 来 实现 的 
| cosa sina 


-sina cosa 


因此 


ee 015 “I cosa sina 

Qj; an 443 — sina — cosa 

acosa + ap sina acosa + aysina a13C0sQ + aysina 

— Qil1Sina + acosa  — apsina + acosa — ajzsina + a23 COSA 


为 了 消除 cx; ， 我 们 需要 解决 [ - asina + acosa] = 0 
因此 ， 从 三 角 法 


sina = ay/ Va? + aż; 


cosa = aj / ail + ai, 
通过 旋转 来 消除 a ERAAN 


Eis Gi2new %13new 


(12-13) 
CQ12new %13new 

这 个 函数 适合 在 一 个 三 角 脉 动 阵 列 上 实现 ， 如 图 12-6 所 示 ， 包 含 了 两 类 单 

元 ,分 别 是 一 个 边界 单元 (Boundary Cell, BC) 和 一 个 内 部 单元 (Internal Cell, 

IC) 。 旋 转 元 素 x AR, Hs 是 输入 到 单元 中 的 输入 值 ，R 是 那个 单元 的 内 存 

中 保留 的 值 。 旋 转 参 数 cosa 和 sina 在 BC ( 指 圆 ) 中 计算 ， 输 入 到 那个 单元 的 x 
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值 被 消除 ， 并 且 在 单元 中 的 值 尺 根据 下 一 次 迭代 的 旋转 和 存储 被 更 新 。 旋 转 参 
数 通过 整 行 IC (指正 方形 ) 保持 不 变 ， 持 续 进行 旋转 。 图 12-6 所 示 为 消除 x», 
这 与 先前 例子 中 说 明 的 第 一 列 次 对 角 元 素 a, AK. Kb, RAM x 值 被 当 作 一 
个 极 坐标 (R, x). 

消除 x 输入 到 BC 中 ， 可 以 通过 RR 旋转 a 角度 得 到 实现 ， 如 下 : 


R +x 
“Ri = Reosa + xsina = = VR +x 








VR? + x? 
式 中 
c = cosa = R 
Jd "n Ri 
并 且 





X22new *23new 
E Ry n EUN ee Ri anew tend 


X» X» X5 *22new X23new 


B| 12-6 Givens 旋转 






通过 连续 的 Givens 旋转 ， 可 以 xiorH2) — xm42) xa(nt2) 
实现 QR 因 式 分 解 ， 形 成 一 个 n xn er 
的 矩阵 。 图 12-7 所 示 为 一 个 3 x3 的 dn 
矩阵 例子 。 被 流水 线 化 后 ， 就 允许 尺 h IR 
的 值 被 反馈 到 下 一 次 迭代 的 单元 中 。 E 
接 下 来 的 小 节 将 对 从 一 个 数学 算 R ge 
法 发 展 成 一 个 硬件 架构 的 进程 给 巴 更 e, R 


详细 的 介绍 ， 通 过 采用 Givens 旋转 的 


R= 最 后 一 次 迁 代 
QR 分 解 来 解决 RLS 算法 的 问题 。 


图 12-7 应 用 于 和 矩阵 的 QR 因 式 分 解 
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12.5 从 算法 到 结构 


在 先前 的 章节 中 ， 细 节 部 分 已 经 在 自 适 应 算法 的 基础 上 分 析 给 出 了 ， 并 且 特 
别 是 RLS 算法 问题 通过 使 用 Givens 旋转 的 QR 分 解 得 以 解决 。 实 现 高 性 能 电路 
的 一 个 关键 方面 就 是 确保 在 硅 硬件 上 算法 的 有 效 映 射 。 这 涉及 一 个 硬件 架构 的 优 
化 ， 在 这 个 架构 中 独立 的 运算 都 是 并 行 形式 ， 以 便 提高 吞吐 量 。 此 外 ， 流 水 线 会 
在 处 理 器 模块 中 得 到 使 用 ， 来 达到 更 大 的 吞吐 量 。 同 时 使 用 并 行 形式 和 流水 线 的 
架构 是 一 个 脉动 阵列 。 它 的 处 理 能 力 来 自 于 大 量 简单 单元 的 并 行使 用 ， 而 不 是 一 
些 非 常 强劲 的 单元 连续 使 用 。 结 果 就 是 局 部 互 连 的 处 理 器 是 有 规律 地 排列 起 来 
的 。 随 着 技术 的 进步 ， 门 时 延 已 经 不 是 控制 电路 性 能 的 主要 因素 。 反 而 ， 互 连 长 
度 的 影响 比 一 个 电路 的 关键 路 径 和 功 耗 的 影响 更 大 ， 因 此 保持 局 部 的 互 连 很 
重要 。 

图 12-8 所 示 为 从 算法 到 架构 的 进程 ， 其 框图 中 的 起 点 是 由 QR 分 解 解决 的 


QR 分 解 解决 的 连续 的 算法 阶段 1: 
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图 12-8 从 算法 到 架构 
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RLS 算法 。 框 图 的 下 一 个 阶段 描述 了 使 用 一 个 连续 的 通过 QR 分 解 解决 的 RES 算 
法 。 就 是 说 ， 对 算法 的 每 个 迭代 ， 新 设 定 的 值 被 输入 到 等 式 中 ， 因 此 可 以 被 解 
RR. QR 运算 能 被 描述 为 一 个 运算 的 三 角 数 组 。 在 三 角形 的 顶部 输入 数据 矩阵 ， 
并 且 随 着 每 行 的 其 他 项 被 消除 ， 因 此 会 得 到 一 个 上 三 角 和 矩阵 。 图 12-8 所 示 DG 
描述 了 这 个 三 角 化 的 过 程 。 这 个 框图 中 级 联 的 三 角 数 组 表示 了 在 时 间 上 的 迭代 ， 
也 就 是 每 个 数组 表示 一 个 新 的 迭代 。 级 联 数组 间 的 箭头 突出 了 随时 间 变 化 的 
关系 。 

从 DG 中 可 以 得 到 一 个 合适 的 SFG， 这 表示 一 个 构架 可 以 开发 。 以 下 各 节 将 
简要 介绍 在 图 12-8 中 ,这些 阶段 所 描绘 的 每 一 个 环节 。 


12.5.1 DG 


数据 间 的 依赖 关系 在 一 个 DG 中 能 被 识别 出 来 ， 这 就 允许 通过 将 该 算法 分 解 
为 节点 和 箭头 ， 来 识别 到 并 行 的 最 大 级 。 节 点 概述 了 计算 过 程 并 且 箭 头 的 方向 说 
明了 运算 有 依赖 性 。 图 12-9 所 示 为 三 维 DG 的 QR 算法 。 框 图 显示 了 三 个 连续 的 
QR 迄 代 ， 用 “依赖 弧 线 ” 连 接 有 依赖 性 的 运算 。 一 些 可 变 标 号 为 了 清晰 度 被 省 
略 了 。 

新 的 数据 通过 x"(n) 表示 。 表示 了 算法 的 迭代 次 数 。 总 之 ，QR 数组 执行 


输入 向 量 x (n) 的 旋转 , 值 R 被 保存 在 QR 单元 的 内 存 中 ， 以 便 输入 到 BC 的 输 


ME x 被 旋转 至 0。 这 样 的 旋转 沿 着 经 QR 单元 间 的 IC 水平线 延 续 出 去 。 从 这 个 
DG 中 ， 可 能 推导 出 大 量 的 SFG 表达 式 。 这 里 使 用 最 明显 的 映射 是 沿 时 间 ( 即 R) 
箭头 映射 DC。 


12.5.2 SFG 


如 图 12-10 所 示 ， 描 述 了 从 DG 到 SFG 的 转换 。 为 了 从 DG 中 推导 出 SFC, 
DG 的 节点 被 分 配 到 处 理 器 ， 然 后 它们 的 运算 被 规范 到 这 些 处 理 器 上 。 处 理 器 分 
配 的 共同 技术 是 所 有 相同 节点 的 线性 映射 沿 着 一 条 直线 传输 到 单个 处 理 器 上 。 这 
由 映射 向 量 d ( 见 图 12-10) 数值 表示 。 线 性 调度 被 用 于 决定 某 个 命令 ， 这 个 命 
令 是 在 处 理 器 上 运算 的 。 图 12-10 中 的 调度 线 指示 了 运算 位 置 ， 这 个 运算 在 每 个 
周期 中 是 并 行 执行 的 。 数 学 上 的 ， 它 们 由 正常 的 调度 向 量 s 到 调度 线 表 示 ， 在 方 
向 上 依赖 操作 ， 也 就 是 它 说 明了 一 个 命令 中 每 一 行 运 算 的 顺序 。 

这 有 两 个 基本 规则 ， 分 别 是 控制 映射 和 调度 ， 来 确保 保持 操作 的 顺序 。 给 定 
一 个 DG 和 映射 向 量 4d， 调度 是 允许 的 ， 如 果 只 有 : 

1) 所 有 依赖 弧 线 流向 同一 方向 跨 过 调度 线 ; 

2) 调度 线 不 能 与 映射 向 量 d 并 行 。 
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图 12-9 QR 分 解 的 DG 


在 QR 例子 中 ( 见 图 12-10), DG 表达 式 单元 中 的 每 个 三 角 数 组 表示 一 个 
QR 更 新 。 当 级 联 时 ，DG 表示 连续 的 QR 更 新 。 通 过 沿 时 间 轴 映射 ， 所 有 QR 更 
新 会 被 分 配 到 一 个 三 角 SFG 上 ， 如 图 12- 10b 所 示 。 

在 DG 中 ,RR 值 随时 间 轴 经 一 个 QR 更 新 传 到 另 一 个 QR 中 ,通过 级 联 的 三 
角 数 组 被 表示 出 来 。 这 个 转换 通过 图 12- 10b 中 的 环 被 表示 得 更 加 简洁 ， 通 过 需 
要 保持 的 算法 时 延 ， 将 R 值 返回 到 单元 格 中 用 于 下 一 个 QR 更 新 。 这 被 称 为 递 
归 环 。 

简单 的 SFC 是 假设 节点 中 执行 的 所 有 运算 运行 一 个 周期 ， 与 算法 时 延 一 样 ， 
由 小 的 黑色 节点 表示 。 这 些 算法 时 延 分 割 了 算法 的 迭代 并 且 是 算法 的 一 个 必要 部 
分 。 因 此 SFG 是 比 DG 更 简洁 的 算法 表达 式 。 ; 

本 章 剩余 的 部 分 给 出 了 推导 一 个 高 效 架构 的 进程 及 SFG 算法 表达 式 硬件 实 
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算法 时 延 表明 存储 
R (n) 是 用 于 时 刻 
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图 12-10 JA DG fi] SFG 
a) DG b) SFG 


现 的 详细 说 明 。 特 别 强调 的 是 要 创造 一 个 直观 的 可 参数 化 的 设计 ， 因 此 未 来 实现 
的 快速 发 展 成 为 可 能 。 


12.5.3 Givens 旋转 的 脉动 实现 


12-11 所 示 为 由 此 产生 的 脉动 阵列 的 常规 Givens RLS 算法 。 注 意 到 在 图 
12-7 中 ,由 Gentleman 和 Kung (1981) 提议 的 原始 版 本 不 包括 沿 着 BC 的 对 角 线 
形成 的 余弦 结构 ， 并 且 这 个 版 本 将 沿 着 对 角 线 连接 BC 用 箭头 表示 出 来 了 。 由 
McWhirter (1983) 做 出 了 重要 修正 ， 因 为 它 允 许 了 QR 阵列 执行 两 个 功能 来 计 
算 权 重 ,， 并 且 还 可 以 使 它 能 像 滤 波 器 本 身 一 样 运行 ， 换 言 之 ,误差 残留 Unde 
误差 ) 会 在 不 需要 权重 向 量 提取 的 条 件 下 被 找到 。 比 起 自 适 应 波束 形成 ， 此 应 
用 中 提供 了 一 个 很 有 吸引 力 的 解决 方案 。 图 12-12 和 图 12-13 所 示 分 别 为 BC 和 
IC 的 定义 。 

数据 向 量 x"(n) 是 来 自 阵 列 顶 部 的 输入 ， 并 且 轮 流 地 存储 在 三 角形 矩阵 
R(n -1) 的 每 一 行 中 旋转 被 渐渐 消除 。 旋 转 参数 ec 和 s 在 一 个 BC 中 得 到 计算 ， 
这 样 来 消除 输入 x;,，(n)。 然 后 这 些 参数 不 变 地 沿 着 IC 传输 ， 继 续 旋 转 。IC 的 
输出 值 x;,; , j(n) 成 为 下 一 行 的 输入 值 。 同 时 ， 新 的 输入 被 反馈 进 阵 列 的 顶端 ， 
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图 12-11 RLS 算法 的 脉动 QR 阵列 

R; (n) = (BR, 2(n-1) +x% ()]? 
X; j(n) R1) 
ii n 
c;(n) T 
feu) s;(n) s- m 


Ti) VN) = ej (Y, 4(n) 
E] 12-12 QR-RLS 算法 的 BC 


然后 此 过 程 不 断 重复 。 在 这 个 过 程 中 ，R(z) Al u (n) 的 值 被 更 新 然后 存储 在 阵列 
中 ， 在 下 一 周期 来 临时 使 用 。 

对 于 RLS 算法 ， 在 等 式 中 需要 包含 遗忘 因子 A 和 余弦 的 结果 y。 因 此 ，BC 
和 IC 的 运算 已 经 相应 地 得 到 了 修改 。 在 阵列 中 一 个 记号 已 经 被 分 配给 了 变量 。 
每 个 R 和 w 都 有 一 个 脚注 ， 被 标 为 (i, D. CIRK R EEA u 向 量 中 元 素 的 
位 置 。 一 个 相似 的 记号 被 分 配给 了 关 输 入 和 输出 的 变量 。 图 12-12 和 图 12-13 所 
示 分 别 为 对 更 新 的 BC 和 IC 单元 的 描述 。 脚 注 是 关于 QR 阵列 中 单元 位 置 的 
坐标 。 


12.5.4 二 次 方 的 Givens 旋转 
在 BC 单元 中 对 标准 Givens 旋转 有 除法 运算 和 二 次 方 根 运算 两 种 方法 ， 如 图 
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图 12-13 QR-RLS 算法 的 IC 

12-12 所 示 。 对 推导 Givens 旋转 QR 算法 有 着 很 广泛 的 研究 ， 这 是 为 了 避免 复杂 
的 运算 ， 同 时 减少 计算 的 总 量 (Cioffi 和 Kailath 1984, Dohler 1991, Hsieh 等 . 
1993, Walke 1997) 。 一 个 可 行 的 QR 算法 是 Givens 旋转 的 二 次 方 (SGR (Dohler 
1991 ) ) 。 在 这 里 ，GCivens 算法 可 以 避免 对 BC 中 二 次 方 根 运算 及 IC 中 半数 乘法 
器 的 需要 。Walke (1997) 的 研究 指出 这 个 算法 在 自 适 应 波束 形成 中 以 合理 的 字 
长 提供 了 出 色 的 性 能 (甚至 连同 小 数 部 分 一 起 字 长 才 12 位 ， 比 起 递归 环 中 的 字 
长 要 长 了 4 位 )。 证 明 这 个 算法 是 一 个 自 适应 波束 形成 设计 的 合理 选择 。 图 12- 
14 所 示 为 SGR 算法 中 的 SFG6， 并且 包括 了 对 BC 和 IC 的 描述 。 

因为 减 小 的 字 长 和 降低 的 运算 要 求 ， 这 个 算法 仍然 要 求 浮 点 算法 的 动态 范 
围 ,但 是 提供 了 定点 算法 来 减 小 体积 。 它 有 人 允许 一 个 乘 加 器 来 更 新 R 的 额外 优 
势 。 递 归 环 的 关键 优势 是 简易 ， 因 为 这 个 环 中 的 时 钟 周期 数 将 控制 一 个 特殊 时 钟 
频率 的 最 大 排出 量 。 例 如 ， 如 果 一 个 QR 阵列 在 递归 环 中 有 10 个 时 钟 周 期 ， 则 
连续 的 QR 迭代 之 间 就 会 需要 10 个 时 钟 周期 ， 由 此 使 得 R(n) 能 在 n+1 和 迭代 中 
使 用 、 计 算 。 

当 硬 件 中 的 消耗 很 少 、 允 许 减 小 全 部 的 字 长 时 ， 能 够 通过 增加 累加 器 R 的 
字 长 来 提高 精确 度 。 这 被 称 为 增强 的 SGR (Enhanced SGR, E-SGR) 算法 
(Walke 1997) 。 

然而 ， 即 使 通过 SCR 算法 降低 实现 的 水 平 ，QR 单元 的 复杂 度 仍 然 很 大 。 此 
外 QR 阵列 中 处 理 器 的 数量 连同 输入 的 数量 呈 二 次 方 增加 ， 这 样 对 一 个 NN 输入 的 
系统 而 言 ， 需 要 (NM € N)/2 个 QR 处 理 器 。 此 外 ， 为 每 个 单元 实现 处 理 器 中 的 数 
据 速 率 会 比 那些 许多 应 用 要 求 的 数据 速率 快 很 多 。 接 下 来 的 小 节 将 详 述 为 实现 
SGR QR - RLS 算法， 推导 出 一 个 高 效 通用 架构 的 过 程 。 


1.6 高 效 结构 设计 
随 着 SCR QR - RLS 算法 的 复杂 度 和 输入 处 理 器 数量 的 大 幅度 提高 ， 特 定 的 


生成 一 个 高 效 的、 满足 性 能 要 求 的 、 低 开销 的 QR 阵列 架构 是 很 重要 的 。 这 样 一 
个 应 用 包含 有 40 个 输入 ,但 是 只 需 1MSPS 的 吞吐 量 。 实 现 全 QR 阵列 ,使 用 
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200MHz 的 时 钟 速率 及 4 个 时 钟 周期 的 递归 环 时 延 (一 个 被 用 于 贯穿 本 章 的 值 ) 。 
这 意味 着 新 的 输入 经 每 4 个 时 钟 周期 能 被 反馈 到 QR 阵列 中 ， 因 此 可 以 提供 
200MHz/4 =50MSPS 的 吞吐 量 能 力 。 很 显然 ， 这 种 性 能 是 不 需要 的 ， 并 且 这 个 设 
计 可 能 受益 于 硬件 的 缩减 。 

这 是 通过 将 三 方面 的 功能 映射 到 处 理 器 中 一 个 更 小 的 阵列 来 实现 的 。 除 了 沿 
着 对 角 线 的 BC 运算 的 位 置 外 ，QR 阵列 的 三 角形 使 推导 出 一 个 高 效 架 构 的 过 程 复 
杂 化 了 。 图 12- 15 所 示 为 一 个 简单 的 QR 单元 映射 到 一 个 线性 架构 的 例子 ， 从 左 到 
右上 映射 到 N 个 处 理 器 上 。 这 个 映射 中 存在 两 个 问题 : 第 一 ，BC 和 IC 运算 是 映射 
到 同一 个 处 理 器 上 的 ， 从 图 12-14 中 可 以 看 出 这 些 运算 之 间 有 明显 的 区 别 ; 第 二 ， 
被 映射 架构 的 处 理 器 不 能 被 有 效 使 用 ， 只 有 第 一 个 被 全 部 利用 。 此 效率 降低 了 处 理 
器 的 容量 ， 导 致 总 效率 只 能 在 60% 左右 ， 这 样 的 资源 利用 率 不 是 很 乐观 。 


辅助 输入 主要 输入 
1 x(n) x(n) x(n) x4(n) xs(n) xg(n) y(n) 














Soul”) 


内 部 单元 


xjc(n) 


EIS a 输出 单元 
e(n) 


Xout 1) 








(注意 : 在 SGR 算 法 中 D=R?) 
图 12-14 ”二 次 方 的 Givens 旋转 QR- RLS 算法 
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NN 个 输入 N 个 处 理 器 用 量 : 

P Q 100% 
Qa 83.3% 

66.7% 

调度 线 ep k 0 
映射 @ 500% 

@ 33.3% 

调度 向 量 > @ 16.7% 


图 12-15 简单 的 线性 阵列 映射 


Rader (1992, 1996) 通过 在 分 配 运算 给 处 理 器 之 前 的 三 角形 操作 中 生成 一 
个 高 效 架构 ， 如 图 12-16 所 示 。QR 阵列 的 B 部 分 在 * HARD IF A Ie Hr Bl He TF 
的 阵列 上 。 这 就 导致 单元 中 有 一 个 矩形 阵列 ， 它 能 被 映射 到 一 个 由 N/2 个 处 理 
器 组 成 的 线性 架构 上 。 但 是 ， 这 些 处 理 器 仍 需要 执行 QR 运算 。 一 个 选择 是 在 有 
很 强 架构 相似 度 的 BC 和 IC 之 间 使 用 CORDIC 算法 (Hamill 1995) ， 另 一 个 选择 
是 设计 一 个 基于 核心 算法 模块 的 通用 QR 单元 〈Lightbody 等 2007) ， 在 此 模块 
上 可 建造 单元 功能 性 。QR 阵列 的 其 他 映射 也 是 存在 的 ， 其 中 一 个 (Tamer 和 Oz- 
kurt 2007) 是 使 用 一 个 瓦 片 结构 来 在 上 面 映射 QR 单元 ， 这 就 导致 处 理 絮 只 能 执 
行 IC 运算 并 且 也 只 能 执行 这 两 种 功能 。 


0 ; Onn 
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A OBESE n e em Hoo 
ommum EK) > 
= onn ». mp N2 个 处 理 器 
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| en oun ERE 
" ® EEE EE) 


映射 


K| 12-16 Radar 映射 (Radar 1992, 1996) 


另 一 个 映射 《Walke 1997) 是 设法 维持 一 个 有 效率 的 架构 同时 维持 BC 和 IC 
运算 来 区 别处 理 器 。 这 是 通过 巧妙 地 操纵 三 角形 阵列 的 形状 ， 以 便 将 所 有 的 BC 
操作 对 齐 到 和 矩形 阵列 处 理 器 的 一 列 上 ， 同 时 所 有 的 IC 运算 被 映射 到 其 他 行 上 。 
这 是 通过 折 全 和 旋转 QR 阵列 的 一 部 分 来 做 到 的 ， 如 图 12-17 所 示 ， 是 一 个 7 输 
和 人 三 角形 阵列 的 例子 。 结 果 就 是 将 2m ”+3m +1 个 有 着 本 地 互 连 性 单元 (也 就 是 
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N=2m+1 PIA) 的 三 角形 矩阵 映射 到 一 个 线性 架构 上 ， 这 个 架构 由 一 个 BC 
处 理 器 和 m 个 IC 处 理 器 构成 ， 并 且 使 用 效率 是 100% 。 这 个 方法 在 别 的 地 方 有 
更 加 详细 的 描述 (Lightbody 1999, Lightbody 42003, Walke 1997) 。 


Rl, Sr * 


d) 


a) 





图 12-17 交错 处 理 器 阵列 。 
摘自 Diesign of a Parameterizable Silicon Intellectual Property Core for QR-Based RLS Filtering, 
by G. Lightbody & R. Woods, IEEE Trans on VLSI Systems, Vol.11, No.4, © 2003 IEE 
a) 三 角形 阵列 b) 修改 后 的 数组 c) 矩形 阵列 d) 本 地 连接 阵列 
e) 映射 到 一 个 线性 阵列 本 地 连接 的 处 理 器 单元 
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为 了 标注 清楚 ， 每 个 QR 运算 被 分 配 了 一 个 由 这 个 运算 计算 的 R (或 者 U) 
的 坐标 ， 比 如 运算 Ria 由 坐标 1, 2 表示， 运算 U, 7 由 坐标 1,7 表示 。 为 了 简化 
解释 ， 阵 列 底部 的 乘法 器 被 当 作 一 个 由 7,7 表示 的 BC。 

这 个 映射 最 初 的 目的 是 为 了 调动 单元 ， 来 让 它们 形成 一 个 本 地 互 连 的 有 规律 
的 矩形 阵列 。 这 能 被 分 成 几 个 部 分 ， 每 个 部 分 被 分 配 到 一 个 单独 的 处 理 器 上 。 以 
这 种 方法 可 以 实现 单元 100% 的 使 用 ， 并 且 得 到 一 个 邻 域 上 最 邻近 的 阵列 。 可 以 
通过 以 下 4 步 得 到 矩形 阵列 。 最 初 的 三 角形 矩阵 被 分 成 两 个 更 小 的 三 角形 算 阵 4 
FB, 在 第 (m+1) 个 BC 与 BC 成 直角 后 进行 切割 。 三 角形 矩阵 4 移 位 到 一 个 
m+1 行 和 m+1 列 的 三 角形 矩阵 列 的 底部 。 

现在 需要 移动 三 角形 矩阵 B 来 使 它 移动 到 和 矩形 阵列 的 顶部 。 这 需要 分 两 步 。 
首先 映射 BB 到 x Hh, 使 B 与 BC 排列 起 来 并 以 这 种 方式 来 使 得 它们 在 三 角形 和 矩 
阵 A 中 平行 于 BC， 形 成 一 个 平行 四 边 形 ， 如 图 12- 17b 所 示 。 然 后 被 映射 的 三 角 
形 和 矩阵 B 沿 着 y 轴 被 提升 并 且 沿 着 x 轴 向 左 移 动 到 矩形 阵列 4 的 上 方 ， 形 成 矩形 
阵列 ( 见 图 12-17c)。 正 如 描述 的 那样 ，BC 运算 被 排列 成 两 行 ， 因 此 对 于 分 配 
运算 到 一 个 线性 架构 上 而 言 ， 和 矩形 阵列 仍然 不 是 一 个 合适 的 形式 。 

下 一 步 目 的 是 将 大 的 矩形 阵列 对 折 来 使 得 BC 运算 的 两 列 沿 着 一 列 排列 。 单 
元 的 折 芋 交错 可 以 得 到 一 个 紧凑 的 矩形 处 理 器 阵列 ( 见 图 12-17d)。 从 这 个 矩形 
的 处 理 器 阵列 中 ， 通 过 映射 对 角 线 上 的 单元 到 一 个 线性 阵列 上 ， 可 将 所 有 BC 运 
算 分 配 到 一 个 BC 进程 上 ， 所 有 的 IC 运算 分 配 到 m 个 IC 处 理 器 上 ( 见 图 12- 
17e) 的 简化 架构 。 图 12- 18 所 示 为 更 加 详细 的 最 终 的 线性 架构 。 


y(n) xe(n) xs(n) 
5, (n) =1 xi(n) x(n) xa(n) xa(n) 





图 12-18 一 个 7 输入 QR 阵列 的 线性 架构 。 摘 自 Design of a Parameterizable Silicon In- 
tellectual Property Core for QR-Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on 
VLSI Systems, Vol. 11, No.4, © 2003 IEEE 
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图 12- 17e 所 示 运 算 和 矩阵 列 中 处 理 器 的 每 一 行 都 有 线 穿插 在 其 中 。 这 些 线 代 
表 了 那些 在 最 后 的 线性 阵列 架构 的 每 个 周期 需要 执行 的 运算 。 这 就 是 所 谓 的 运算 
调度 ， 并 且 通 过 调度 向 量 s 被 更 加 紧凑 地 表示 ， 调 度 向 量 s 是 一 个 与 调度 线 垂 直 
的 箭头 。 在 分 析 的 这 一 阶段 ， 假 设 每 个 单元 处 理 器 占 一 个 时 钟 周期 。 最 终 ， 线 性 
阵列 的 所 有 处 理 器 单元 输出 上 都 有 寄存 器 来 维持 这 个 调度 。 数 据 选择 器 被 放置 在 
QR 单元 的 输入 上 来 控制 数据 输入 ， 不 管 是 来 自 系统 的 输入 还 是 来 自 邻 近 单 元 的 
输入 。 底 部 的 数据 选择 器 是 管理 在 原始 阵列 的 行 之 间 的 数据 流 方向 。 

原始 的 QR 阵列 单元 存储 的 RR 值 从 一 个 迭代 到 下 一 个 。 这 样 的 存储 为 了 可 以 
运行 简化 的 架构 ， 因 此 要 求 在 多 重 时 钟 周期 的 单元 递归 环 中 存储 大 量 的 RR 值 。 
有 一 个 方法 是 保持 这 个 值 在 本 地 QR 单元 的 循环 数据 通道 中 ， 而 不 是 在 外 部 存储 
器 中 ， 也 就 是 这 些 值 在 本 地 被 流水 线 化 来 对 其 进行 延 时 ， 直 到 它们 被 需要 时 就 不 
再 延 时 。 递 归 环 中 一 些 要 求 的 时 延 可 以 通过 环 中 现存 的 运算 时 延 得 到 满足 ， 并 且 
剩余 的 时 延 也 可 以 通过 插 人 额外 的 寄存 器 来 得 到 实现 。 一 些 规格 的 外 部 存储 器 是 
合适 插入 的 。 


12.6.1 调度 QR 运算 


架构 的 派生 仅仅 是 必要 发 展 的 一 部 分 。 更 复杂 的 工作 是 确定 一 个 有 效 的 计 
划 ， 以 确保 每 组 操作 所 需 数 据 被 执行 的 时 间 ， 同 时 保持 一 定 的 效率 。 这 暗示 了 数 
据 一 定 是 以 调度 向 量 的 方向 跨 调度 线 流动 的 。 图 12- 17e 中 的 矩形 处 理 器 阵列 包 
含 了 QR 算法 要 求 的 所 有 运算 ,展示 了 一 系列 能 在 线性 架构 上 实施 的 情况 。 因 
此 ， 用 这 个 图 能 展示 线性 架构 上 可 以 执行 的 运算 调度 。 一 个 分 析 调 度 和 定时 的 问 
题 现 在 能 够 被 完善 。 观 察 第 一 调度 线 ， 可 以 看 出 来 自 两 个 不 同 QR 更 新 的 运算 已 
经 被 交错 。 阴 影 单元 代表 了 目前 在 时 刻 n 的 QR 更 新 且 非 阴影 单元 代表 了 先前 
n -1 时 刻 未 完成 的 更 新 。 实 际 上 QR 更 新 已 经 互相 影响 、 互 相交 错 了 。 如 图 
12-19 所 示 ， 更 加 清楚 地 展示 了 这 种 现象 。 第 一 个 QR 运算 在 1 周期 时 开始 ， 然 
后 在 线性 架构 的 2m + 1 周期 之 后 ， 下 一 个 QR 运算 开始 。 同 样 的 ， 在 下 一 个 
2m +1 周 期 之 后 ， 第 三 个 QR 运算 开始 。 总 之 ， 它 花费 了 线性 架构 Am + 1 个 周期 
来 完成 一 个 具体 的 QR 更 新 。 

需要 QR 单元 能 够 支持 来 自 外 部 系统 的 x 个 输入 的 快照 ， 也 就 是 形成 输入 x 
(z) 和 矩阵 和 y(z) 向 量 的 数据 快照 ， 如 图 12-19 所 示 。 外 部 输入 经 每 2m +1 个 时 
钟 周期 被 反馈 到 线性 架构 中 。 同 时 它们 也 会 接受 线性 阵列 式 内 部 的 输入 。 映 射 过 
程 已 经 能 使 这 些 互 连 被 保持 在 本 地 ， 这 是 一 个 主要 的 优点 。 

如 果 每 一 个 QR 单元 占用 一 个 单个 时 钟 周期 来 产生 一 个 输出 ， 那 这 将 不 会 有 
如 图 12- 17 所 示 的 调度 妨碍 。 但 是 ， 一 定 要 考量 额外 的 定时 间 题 ， 因 为 每 个 QR 
单元 中 的 进程 单元 都 有 详细 的 定时 要 求 。 在 第 12.8 节 中 会 详细 讨论 运算 的 重 
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定时 。 
注意 到 图 12-19 中 突出 的 处 理 器 阵列 式 ， 等 同 于 图 12-7e 中 给 出 的 处 理 器 阵 

列 。 该 处 理 器 阵列 是 一 个 关键 起 点 ， 从 这 个 起 点 可 以 发 展 一 个 通用 QR 架构 。 
周期 : 





处 理 器 阵列 1 
P aoe 
QR 更 新 2 






B 
i 











图 12-19 交错 的 连续 QR 运算 。 摘 自 Design of a Parameterizable Silicon Intellectual 
Property Core for QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VL- 
SI Systems, Vol. 11, No. 4, © 2003 IEEE 


12.7 通用 QR 单元 


目前 提出 的 技术 已 经 被 应 用 到 仅 有 一 个 主要 输入 的 QR 阵列 中 ， 也 就 是 一 个 
y 输 入。 为 了 发 展 一 个 通用 QR 架构 ， 主 要 输入 的 数量 需要 是 可 变 的 。 这 会 产生 
一 个 由 一 个 三 角形 部 分 和 一 个 矩形 部 分 组 成 的 QR 阵列 ， 如 图 12-20 所 示 ， 它 的 
大 小 由 附属 输入 的 数量 和 主要 输入 的 数量 决定 。 一 般 而 言 ， 输 入 到 三 角形 部 分 的 
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[12-20 AŽ 2m +1 个 附属 输入 和 p 个 主要 输入 的 通用 QR 阵列 。 摘 自 Design of a 
Parameterizable Silicon Intellectural Property Core for QR- Based RLS Filtering, by G. Lightbody 
& R. Woods, IEEE Trans on VLSI Systems, Vol.11, No.4, © 2003 IEEE 


数量 要 比 输入 到 和 矩形 部 分 的 数量 多 ， 比 如 雷达 应 用 的 例子 中 到 三 角形 部 分 的 输入 
是 40 而 到 和 矩形 部 分 的 输入 只 有 2 个 。 已 经 提出 了 由 三 角形 部 分 和 和 矩 形 部 分 组 成 
的 通用 QR 阵列 实现 架构 映射 的 技术 好 。 不 同 层次 的 硬件 映射 都 得 到 了 应 用 ， 这 
提供 了 一 些 基于 原始 线性 阵列 的 合适 的 架构 。IC 处 理 器 的 数量 也 许 会 进一步 减 
少 , 或 者 多 重 线性 阵列 也 许 会 被 结合 起 来 ， 这 都 取决 于 应 用 的 性 能 要 求 。 注 意 到 
这 些 连接 已 经 从 图 12-20 和 接 下 来 的 图 表 中 移 除 了 ， 这 都 是 为 了 减少 图 表 的 复杂 
度 和 提升 清晰 度 。 


12.7.1 处 理 器 阵列 


在 先前 的 章节 中 ，QR 阵列 的 三 角形 结构 转变 成 了 本 地 互 连 的 处 理 器 的 一 个 
矩形 处 理 器 阵列 ， 如 图 12-17d 所 示 。 从 这 个 起 点 开始 ， 运 算 能 被 映射 到 一 个 缩 
减 的 架构 上 。 接 下 来 的 例子 将 证 明 一 个 简化 创建 处 理 器 阵列 的 方法 。 

处 理 器 阵列 是 通过 两 步 获 得 的 。 首 先 如 图 12-20 所 示 ， 通 过 将 阵列 的 一 角 从 
AFUE EA m 个 单元 之 后 。 这 个 从 和 矩阵 的 一 个 角 被 折 释 的 单元 被 交错 到 未 
mE wT ZA), WA 12-21 所 示 。 接 下 来 ,需要 考虑 连续 的 QR 更 新 。 图 
12-21 所 示 结 构 中 的 间隔 通过 当前 QR、 先 前 迭代 、 下 个 迭代 的 更 新 ,3 个 QR 的 
交错 来 被 移 除 。 这 在 线性 阵列 的 派生 过 程 中 同样 有 效 ， 图 12- 19 所 示 为 没有 矩形 
部 分 的 原始 三 角形 阵列 。 
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图 12-21 一 般 的 QR 阵列 : MEAFAR m NAMAA. A Design of a Pa- 
rameterizable Silicon Intellectural Property Core for QR- Based RLS Filtering, by G. Lightbody 
& R. Woods, IEEE Trans on VLSI Systems, Vol. 11, No.4, © 2003 IEEE 


折合 位 置 的 选择 及 阵列 三 角形 部 分 的 大 小 是 很 重要 的 。 通 过 将 折合 部 分 放置 
在 右手 边 的 第 m 个 单元 之 后 ， 能 得 到 一 个 有 规律 运算 的 矩形 阵列 。 这 能 够 更 详 
细 地 展示 出 来 ， 比 如 在 图 12-22 中 的 一 般 QR 阵列 。 正 如 三 角形 阵列 一 样 ， 应 用 
于 三 角形 部 分 和 和 矩 形 部 分 的 同样 过 程 产生 了 一 个 随 着 时 间 重 复 的 部 分 ， 并 且 包 含 
了 所 有 被 要 求 的 QR 运算 。 这 个 部 分 指 的 是 处 理 器 阵列 。 如 图 12-23 所 示 ， 更 加 
清楚 地 描述 了 处 理 器 阵列 ， 其 中 展示 了 来 自 图 12-22 中 重复 的 部 分 。 

在 图 12-23 所 示例 子 中 ， 处 理 器 阵列 包含 了 由 .3 个 连续 QR 更 新 的 QR 运算 ， 
由 不 同 的 阴影 单元 代表 。 互 连 已 经 被 维持 在 这 个 图 形 中 ， 它 突出 了 单元 的 本 地 互 
连 性 。 处 理 器 阵列 的 大 小 由 三 角形 QR 阵列 的 原始 大 小 决定 ， 也 就 是 说 ， 附 属 输 
入 和 主要 输入 的 数量 分 别 是 (2m +1) Alp 个 。 最 后 的 处 理 器 阵列 有 (2m +1) 
行 和 (m+p+1) 列 ， 结 果 就 是 在 原始 阵列 中 给 予 了 单元 总 的 数量 。 在 这 个 处 理 
器 阵列 中 ， 有 着 一 些 硬 件 缩减 级 别 可 变 的 架构 ， 能 通过 将 阵列 分 成 几 个 部 分 并 且 
将 每 个 部 分 分 配 到 一 个 单独 的 处 理 器 上 来 获得 。 以 下 有 QR 架构 的 几 个 可 能 的 
HEX: 

线性 架构 : 矩形 阵列 被 映射 到 一 个 有 单个 BC 和 (mp) 个 IC 的 线性 阵 
列 上 。 

矩形 架构 : 矩形 阵列 被 映射 到 单元 的 大 量 线性 行 上 。 这 个 架构 会 有 r 行 (其 
中 1<r=2m+1)， 并 且 每 行 会 有 一 个 BC 和 (m+p) 个 IC。 

PRATER : 矩形 阵列 被 映射 到 一 个 有 单个 BC 和 至 多 (mp) 个 IC 的 
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图 12-22 重复 部 分 。 摘 自 Design of a Parameterizable Silicon Intellectual Property Core for 
QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Systems, Vol. 11, 
No.4, © 2003 IEEE 
线性 架构 上 。 
MIER: 矩形 阵列 被 映射 到 单元 的 许多 线性 行 上 。 这 个 架构 会 有 
行 ，( 其 中 1<r=2m +1)， 并 且 每 行 会 有 一 个 BC 和 至 多 (m+p) 个 IC。 
以 上 摘自 Lightbody et al. , ©2003 IEEE, 
通过 使 用 与 图 12-23 中 相同 的 QR 处 理 器 阵列 例子 ,. 在 下 面 的 部 分 给 出 了 每 
种 类 型 的 简化 架构 的 例子 。 
1. 线性 阵列 
线性 阵列 是 源 于 将 处 理 器 阵列 运算 的 每 列 分 配 到 一 个 单独 的 处 理 器 上 ， 这 就 
生成 了 m+p+1 个 处 理 器 的 一 个 线性 架构 ， 如 图 12-24 所 示 。 总 之 它 花费 了 线性 
阵列 的 16 (也 就 是 4m +p +1) 个 周期 来 完成 每 个 QR 运算 。 此 外 ,在 连续 的 
QR 更 新 开始 之 前 也 要 7 (也 就 是 2m +1) 个 周期 。 这 个 值 被 记 作 Toro THEME 
目前 为 止 ，QR 单元 的 时 延 是 一 个 时 钟 周期 ， 也 就 是 在 每 个 时 钟 周期 上 ，QR is 
算 的 每 行 都 在 线性 架构 上 被 执行 。 同 样 ， 假 设 递归 环 仅仅 有 1 个 周期 的 时 延 。 之 
后 的 章节 会 检测 多 重 周期 时 延 的 影响 ， 当 有 着 详细 定时 的 单元 处 理 元 件 被 用 于 一 
般 QR 架构 的 发 展 时 ， 它 才 会 发 生 。 


第 12 章 自 适应 波束 形成 器 实例 297 





2m+1 行 





m+p+1 列 


图 12-23 处理 器 阵列 。 摘 自 Design of a Parameterizable Silicon Intellectural Property 
Core for QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Sys- 
tems, Vol. 11, No.4, © 2003 IEEE 


2. 稀疏 线性 阵列 

图 12-25 所 示 为 进一步 的 硬件 缩减 ， 这 就 产生 了 一 个 稀 玻 线性 阵列 。 在 这 里 
IC 处 理 器 的 数量 已 经 减 半 。 当 IC 运算 的 多 重 列 (也 就 是 列 ) 被 分 配 到 每 个 处 理 
器 时 ， 架 构 的 迭代 数量 因为 这 个 因素 被 增加 。 因 此 ， 对 于 稀 玻 的 线性 阵列 ，7on 
表示 为 2m +1 (被 用 于 线性 阵列 ) 和 Nic. Fd 12-26 Brzn Apo R Bid EEY RE 
的 例子 。 

3. 和 矩形 阵列 

处 理 器 阵列 能 被 行 分 而 不 是 列 分 ， 使 得 QR 运算 的 大 量 行 被 分 配 到 处 理 器 的 
一 个 线性 阵列 上 。 图 12-27 所 示 为 被 映射 到 一 个 阵列 架构 的 处 理 器 阵列 上 。 因 为 
处 理 器 阵列 由 7 行 组 成 ， 其 中 4 行 被 分 配 到 一 条 线 上 并 且 另 外 3 行 被 分 配给 另 一 
条 线 。 要 平衡 每 一 个 线性 数组 的 行 数 ， 就 需要 一 个 虚拟 行 的 操作 ， 并 且 通 过 被 字 
BE D 标记 的 单元 表示 。 

在 每 个 时 钟 周 期 上 ， 和 矩形 阵列 处 理 器 执行 原始 处 理 器 阵列 的 两 行 。 每 个 QR 
迭代 要 花费 18 个 周期 来 完成 ， 这 比 线性 阵列 多 花费 了 2 个 时 钟 周期 ， 这 些 都 是 
由 于 运算 的 虚拟 行 多 而 导致 的 。 但 是 ，QR 更 新 起 动 更 加 频繁 了 。 这 样 的 话 ， 相 
比 于 花费 7 个 周期 的 线性 阵列 ，Tog 就 是 4 对 阵列 架构 ，Tor 由 下 式 决定 : 
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个 单元 上 





m+p +l 单元 


图 12-24 线性 阵列 。 摘 自 Design of a Parameterizable Silicon Intellectual Property 
Core for QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI 
Systems, Vol. 11, No.4, © 2003 IEEE 


E (2m *1) +Np 
= 7 Nows 

式 中 ，Niows 是 矩形 架构 中 人 处理 器 的 线 的 数量 ，Np 是 需要 用 于 平衡 调度 的 虚拟 运 
算 的 行 的 数量 。 结 果 值 与 被 要 求 执行 处 理 器 阵列 中 所 有 运算 的 架构 的 周期 数 
相关 。 

4. 稀疏 矩形 阵列 

稀 玻 矩形 阵列 运算 分 配 到 稀 朴 线性 阵列 的 多 重 行 上 。 处 理 器 阵列 的 许多 行 被 
分 配 到 每 个 线性 阵列 上 。 列 也 被 分 区 来 使 得 运算 的 多 重 列 被 分 配给 每 个 IC 处 理 
器 ， 如 图 12-28 所 示 。 
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"T. ^ 映射 到 4 
oy et o a 个 处 理 器 





4 处 理 器 


图 12-25 稀 踊 线性 阵列 。 摘 自 Design of a Parameterizable Silicon Intellectual Proper- 
ty Core for QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Sys- 
tems, Vol.11, No.4, © 2003 IEEE 


QR 更 新 花费 34 个 周期 来 完成 并 且 每 7 个 周期 起 动 一 个 更 新 ， 也 就 是 Tor = 
7。 包括 了 Nic 的 等 式 Tor ÆR T 
((2m +1) +Np)Nic 
IN 
例如 ，Tor =((2x3 +140) x2)/2=7 个 周期 。 
迄今 为 止 的 讨论 仍 集中 在 映射 到 有 着 奇数 附属 输入 数 的 QR 阵列 上 。 这 项 技 
术 可 以 被 应 用 到 一 个 偶数 阵列 上 ， 但 是 总 效率 会 有 少量 的 降低 。 
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图 12-26 MREZI ERJ—^- QR 更 新 调度 
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图 12-27 和 矩形 阵列 
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周期 






行 1 的 操作 


行 2 的 操作 





投影 到 4 个 处 
理 器 的 2 行 上 


不 是 所 有 的 
反馈 链接 
都 显示 了 


4 个 处 理 器 


图 12-28 稀 朴 矩形 阵列 


12.8 ” 重 定时 通用 结构 


目前 讨论 的 QR 架构 已 经 假设 QR 单元 有 一 个 时 钟 周 期 的 时 延 。 由 于 架构 的 
映射 基于 这 个 原因 ， 不 会 有 数据 输入 的 冲突 。 但 是 ，QR 单元 中 实际 定时 细节 的 
内 容 将 影响 有 效 数据 调度 的 保证 。 算 法 的 IP 处 理 器 〈McCanny 5$ 1997, 
University N 2007) 被 用 于 实现 关键 算法 的 功能 ， 比 如 乘法 、 加 法 和 除法 ,包括 
会 影响 整个 电路 定时 的 定时 细节 。 这 曾 在 第 8 章 中 有 详细 讨论 。 重 定时 的 负面 影 
响 会 导致 QR 单元 的 输出 数据 通道 中 的 可 变 时 延 。 本 节 探 讨 了 在 实时 QR 单元 内 
使 用 真正 硬件 的 结果 。QR 阵列 的 选择 是 为 了 使 用 浮 点 算法 来 支持 算法 中 变量 的 


第 12 章 ” 自 适应 波束 形成 器 实例 303 





动态 范围 。 浮 Te e an 12-29 所 示 。 


加 法 /减法 : 
当 Sub=0 时 ， 移 位 减法 : 
S=A+B D=A- 
其 他 情况 S=A-B| Shift (A,N). 





图 12-29 算法 的 模型 。 摘 自 Design of a Parameterizable Silicon Intellectual Property 
Core for QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Systems, 
Vol.11, No.4, © 2003 IEEE 


在 自 适 应 波束 形成 中 ， 像 大 量 信号 处 理应 用 一 样 ， 表 示 复 杂 的 算法 是 被 需要 
的 ， 同 样 ， 输 入 信号 包含 了 大 小 和 相位 。 通 过 使 用 一 个 信号 作 实 部 ， 另 一 个 作 虚 
部 来 使 之 得 到 实现 ， 并 且 给 出 了 如 图 12-30 所 示 SFG 展示 的 BC 和 IC 运算 。 浮 
点 的 复杂 乘法 是 由 4 个 实 乘法 和 2 个 实 加 法 组 成 的 ， 也 就 是 (a + jb) (ce + jd) = 
(ac - bd) +j(ad +bc)。 最 佳 化 通过 使 用 3 个 乘法 和 5 个 加 法 /减法 ， 可 用 于 实现 
复杂 的 乘法 。 但 是 ， 考 虑 到 因为 指数 运算 代价 较 高 ， 所 以 一 个 加 法 对 浮 点 算法 中 
的 乘法 而 言 是 一 种 简单 的 计算 ， 这 并 不 是 有 益 的 。 由 于 这 个 原因 ，4 次 乘法 的 版 
本 得 到 了 使 用 。 复 杂 算 法 运算 的 细节 如 图 12-31 所 示 。 

在 图 12-32 和 图 12-33 中 分 别 给 出 BC 和 IC 的 SFC。 这 些 图 表 展 示 了 单元 架 
构 中 算法 模式 的 互 连 性 。 大 多 数 的 功能 都 是 无 需 加 以 说 明 的 ， 除 了 移 位 减法 器 。 
对 很 小 的 值 x 来 说 ， 运 算 V1 -x 可 以 通过 1 -x 被 近似 算出 ， 通 过 由 D =A - 
Shift (A, N) 表示 的 一 系列 移 位 ， 这 也 许 会 得 到 实施 。 这 个 运算 被 用 于 实现 QR 
单元 的 反馈 路 径 中 的 遗忘 因子 B。 这 个 B 值 接近 1， 因 此 为 了 功能 应 用 ，x 被 设 
为 (1-8). 

如 图 12-32 和 图 12-33 Prax, Æ QR 单元 中 有 大 量 的 反馈 环 。 一 个 RLS 的 存 
储 单元 中 的 R 值 是 可 和 迭代 的 。 这 些 循 环 将 是 一 个 基本 的 限制 ， 以 实现 吞吐 量 的 
速率 接近 时 钟 速率 ， 更 重要 的 是 ， 这 可 能 会 导致 电路 利用 率 的 降低 。 换 句 话说 ， 
甚至 当 使 用 一 个 全 QR 阵列 时 ， 计 算 中 的 时 延 新 R 值 也 会 限制 吞吐 量 。 
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图 12-30 复杂 算法 的 SGR QR 算法 的 单元 SFG。 摘 自 Design of a Parameterizable Silicon In- 
tellectual Property Core for QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on 
VLSI Systems, Vol.11, No.4, © 2003 IEEE 

a) 边界 单元 b) 内 部 单元 


复数 /实数 乘法 复数 加 法 复数 乘法 、 ”特殊 功能 
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图 12-31 算法 模型 。 摘 自 Design of a Parameterizable Silicon Intellectual Property Core for 
QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Systems, Vol. 11, 
No. 4, © 2003 IEEE 


$123 自 适 应 波束 形成 器 实例 305 





a 的 时 延 设 为 Lic 


Pa)” “可 参数 化 的 


Sout 关键 : 





图 12-32 一 般 的 重 定时 BC。 摘自 Design of a Parameterizable Silicon 
Intellectual Property Core for OR- Based RLS Filtering, by G. Lightbody & 
R. Woods, IEEE Trans on VLSI Systems, Vol. 11, No.4, © 2003 IEEE 


图 12-32 和 图 12-33 描述 了 被 放置 在 数据 通道 中 的 有 着 一 般 时 延 的 QR 单 


元 。 这 些 是 为 了 允许 运算 的 再 同步 ， 因 为 算 子 中 可 变 的 时 延 ， 也 就 是 为 了 确保 正 
确 时 间 。 在 表 12-1 和 表 12-2 中 分 别 列 出 BC A0 IC 的 可 编程 时 延 的 一 般 表达 。 
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图 12-33 通用 重 定时 IC。 摘 自 Design of a Parameterizable Silicon Intellectual 
Property Core for QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans 
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4 的 时 延 设 
为 Lic 


2 的 时 延 设 
为 Lic 





中 同人、 可 参数 化 的 所 有 复数 路 径 
Xout, 时 延 Xout = Lic 


on VLSI Systems, Vol. 11 No.4, © 2003 IEEE 


表 12-1 


BC 一 般 的 定时 。 摘 自 Design of a Parameterizable Silicon Intellectual Property 
Core for QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Sys- 


tems, Vol.11, No.4, © 2003 IEEE 









































BC 时 延 值 
BRL 2PA +2Py + Pg € Rs - Tor 
PBI | Pn 
PB2 Tor - P4 - Pg 
PB2a 如 果 Ba, <0， 则 为 Br, BAO 
PB2b 如 果 Bg, <0， 则 为 PB2 - PB2a， 和 否则 为 PB2 
PB3 如 果 Ba >0， 则 为 Bu ， 和 否则 为 0 
PB4 2P, +Py +Pp +Pp — PB3 
PBS 2P, +2Py +PR € Pp -Ton 























PB6 Cra 
PB7 Lic -La 
PB8 Lic - Lp 
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还 有 为 了 维持 一 个 有 规律 的 数据 调度 ，QR 单元 的 时 延 得 到 了 调整 ,使 x 的 
值 和 旋转 参数 同时 来 自 于 QR 单元 的 输出 。 这 些 输出 中 的 IC 时 延 通过 使 用 Lic 来 
表达 。 在 产生 旋转 参数 a 和 4b 中 BC 的 时 延 Lic 被 用 来 保持 同步 输出 。 但 是 ,在 
过 程 中 BC 的 时 延 被 设 为 Su ， 这 个 值 是 两 倍 时 延 ， 也 就 是 27ic ， 因 为 这 与 全 QR 
阵列 的 原始 调度 相关 ， 因 此 这 展示 了 没有 哪 两 个 连续 的 BC 运算 是 在 连续 的 周期 
上 执行 的 。 通 过 保持 数据 调度 的 结构 ， 重 定时 过 程 实质 上 是 一 个 简单 的 关系 ， 见 
# 12-3, 

# 12-2 IC 一 般 的 定时 。 摘 自 Design of a Parameterizable Silicon Intellectual Property 
Core for QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Sys- 
tems, Vol.11, No.4, © 2003 IEEE 















































IC Delay value 
In. 2PA Py +PR - Ton 

PI Ton- P4 -P 

PIla 如 果 Ir, «0, WA - Ir， 其 他 为 0 

PIlb 如 果 Ig, <0， 则 为 PD - PIla， 其 他 为 PI 
PR 如 果 Iu >0， 则 为 Itr ， 其 他 为 PH 

PIB PD +P, +Py 

PI4 ip = th, 

PIS Ls 

PI6 ig = PR 





表 12-3 BC 和 IC 的 时 延 的 一 般 的 表达 。 摘 自 Design of a Parameterizable Silicon Intel- 
lectual Property Core for QR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans 
on VLSI Systems, Vol. 11, No.4, © 2003 IEEE 




















时 延 值 
L, Py 
Ey Py, + PBS 
Ls PB3 + PB4 +2Py 
L, PI3 + PA 
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12.8.1 BER QR 结构 


接 下 来 的 这 一 节 将 继续 讨论 重 定时 问题 ， 以 及 如 何在 一 个 一 般 的 架构 中 包含 
它们 。 

线性 阵列 架构 的 重 定时 

时 延 有 伸展 每 个 QR 更 新 运算 调度 的 作用 。 这 意味 着 迭代 n=2 在 迭代 n=1 
开始 之 后 2m +1 个 时 钟 周期 起 动 。 但 是 ， 处 理 器 时 延 的 引入 扩展 了 调度 表 ， 使 
得 n=2 的 和 迭代 在 (2m +1) Lic 个 时 钟 周期 后 起 动 。 很 明显 这 不 是 线性 架构 的 最 
优化 使 用 ， 因 为 它 只 能 在 每 个 Lic 时 钟 周期 被 使 用 。 

一 个 由 Tor 表 示 的 因子 ， 在 最 后 一 节 作为 连续 的 QR 更 新 的 开始 周期 的 数量 
被 引入 ， 它 是 由 硬件 简化 的 程度 决定 的 。 可 以 看 出 导致 一 个 100% 利用 率 的 有 效 
调度 ， 能 通过 设 定时 延 Lic 与 To 是 相对 质数 来 得 到 实现 。 也 就 是 ， 如 果 两 个 值 
不 共享 一 个 除了 1 的 共同 因子 ， 那 么 它们 的 最 小 公 倍数 会 是 它们 的 乘积 。 否 则 在 
Lic 与 Tor 的 乘积 和 它们 的 公 倍 数 之 间 会 有 数据 冲突 。 


如 果 Tog =mod c H Lic=mod c 
然后 Tor =dxc 且 Zrc=exc 
得 Peel eae 

d e 


式 中 , c 是 Ton Fil Tire 的 一 个 公 倍 数 ， 是 一 个 除了 1 以 外 的 正 整数 ， 并 且 d Ail e 4} 
别 是 Lic 和 Lic 的 一 个 因子 。 因 此 ， 在 Tor xe =Lic x d 中 会 有 冲突 。 

这 意味 着 Tor x e 和 Lic x d 的 乘积 一 定 比 Ton x Lic 小 。 因 此 ,会 有 冲突 数 
据 。 相 反 ， 为 了 获得 无 冲突 数据 ， 就 设 c 为 1。 

时 间 例 子 Tor x Lic 不 代表 一 个 数据 冲突 ， 因 为 Ton 的 值 等 于 2m +1， 并 且 避 
免 线 上 QR 运算 与 一 个 新 的 QR 运算 冲突 。 在 选择 最 优化 值 Ton 和 Lic 的 另 一 个 重 
要 因素 是 确保 处 理 器 100% 的 效率 。 

Top RI Lic 之 间 简 单 的 关系 在 实现 每 个 高 利用 率 的 类 型 结构 中 是 一 个 关键 因 
素 。 更 重要 的 是 ， 这 个 关系 给 予 了 一 个 简明 的 数学 表达 ， 这 个 表达 在 一 个 通用 
QR 架构 自动 生成 ， 通 过 调度 来 完成 ， 并 且 在 解决 重 定时 的 问题 中 是 被 需要 的 。 

图 12-34 所 示 为 在 图 12-17 中 展示 的 7 输入 线性 阵列 的 一 个 调度 的 例子 ， 其 
中 Lic 为 3 且 Tq =7。 阴 影 单元 代表 了 来 自 不 同 更 新 的 QR 运算 ， 这 个 更 新 与 其 
余 运算 有 交错 并 且 这 个 阴影 单元 填补 了 由 突出 的 QR 更 新 留 下 的 空位 。 这 个 调度 
被 确认 由 第 一 个 QR 更 新 的 数据 所 填充 ; 因此 ， 这 是 依靠 Lic 时 延 的 。 
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图 12-34 IC 时 延 为 3 的 线性 阵列 的 调度 。 摘 自 Linear QR Architecture for a Single Chip 
Adaptive Beamformer, by G. Lightbody, R. Woods, R. Walke & J. McCanny, Journal of VLSI 
Signal Processing Systems 24, 67 -81 2000, Kluwer Academic Publishers, Springer 
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12.9 可 参数 化 QR 结构 


参数 化 的 主要 领域 包括 了 字 长 、 算 法 的 功能 时 延 及 Ton 的 值 。 不 同 的 规范 会 
要 求 不 同 的 有 限 精 确 度 ， 因 此 字 长 是 一 个 重要 的 参数 。 通 过 使 用 算法 功能 的 一 个 
分 层 库 ，QR 单元 已 经 得 到 建立 ， 这 个 QR 单元 是 依据 字 长 被 参数 化 的 ， 也 可 用 
流水 线 来 增加 运算 速度 从 而 达到 要 求 。 这 些 参数 通过 QR 单元 HDL 描述 的 分 层 
被 传 到 这 些 算法 的 功能 中 。 另 一 个 考量 是 Tor 的 值 ， 它 决定 了 从 一 个 QR 的 R 和 
u 的 值 更 新 到 下 一 个 QR 单元 中 递归 环 所 需要 的 存储 长 度 。 算 法 功能 中 的 Top 和 
流水 线 的 级 被 并 人 SGR QR 单元 的 一 般 定时 表达 式 中 。 


12.9.1 结构 的 选择 


K 12-4 证 实 了 当 确 定 了 一 个 具体 抽样 速率 (100MHz) 和 QR 阵列 大 小 时 ， 
设计 一 个 QR 架构 的 过 程 。 下 面 的 例子 是 对 有 45 个 附属 输入 和 12 个 主要 输入 的 
QR 阵列 而 言 的 ， 也 就 是 m=22 且 p=12。 最 终 的 处 理 器 阵列 是 2m +1 =45 行 和 
m+p+1=35 列 。 只 要 给 出 的 样 值 知 吐 量 和 时 钟 速率 正如 表 12-4 所 示 ， 我 们 就 
能 决定 Ton MH. TERE Tos K Lic 的 最 后 值 一 定 是 互 质 的 ,但 是 对 于 这 些 例子 ， 
我 们 现在 可 以 不 考虑 这 个 关系 。 

3212-4 QR 架构 的 例子 。 摘 自 Design of a Parameterizable Silicon Intellectual Property 
Core for OR- Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Sys- 
tems, Vol.11, No.4, © 2003 IEEE. 











( MSPS) 





架构 


DAN 





全 QR 阵列 (每 个 QR 单元 都 有 处 理 器 ) 
和 矩形 阵列 1 (12 个 线性 阵列 ， 其 中 4 行 有 
































4 25 
=) 
和 矩形 阵列 2 (3 个 线性 阵列 ， 其 中 15 行 有 
105 15 6. 67 
=a) 
稀疏 矩形 阵列 (3 个 线性 阵列 的 处 理 器 且 
3 51 54 30 3.33 
每 个 是 2 列 IC) 
线性 (1BC，26IC ) 1 34 35 35 2.22 
一 每 
个 线性 阵列 上 每 个 IC 处 理 器 上 有 稀 朴 线 i " ik Hd - 
性 2 列 IC 
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Tor 的 一 般 描 述 如 上 所 示 被 重新 排列 ， 可 以 给 出 下 面 的 关系 : 





Nic by Tor 
Non ms] 


row: 


这 个 结果 被 四 舍 五 人 到 最 近 的 整数 。 有 三 个 可 能 : 
f, 
AR, S »1, SG BE I ELA HE PE 


F 
MRE = 1， 则 需要 一 个 线性 阵列 


T, 
MR c1, WEEE 
m+l 


依靠 结果 架构 的 维度 ， 设 计 者 可 以 决定 选择 一 个 稀疏 矩形 架构 。 注 意 到 全 三 
角 阵 列 能 满足 一 个 100MHz 时 钟 的 最 大 吞吐 量 被 限制 在 25MSPS 内 ， 这 是 因为 
QR 单元 递归 路 径 中 有 4 周期 的 时 延 (也 就 是 100MHz +4 =25MSPS ) 。 当 第 一 个 
矩形 阵列 方案 使 用 408IC 和 12BC 而 不 是 要 求 1530IC 和 45BC 的 全 阵列 时 ， 可 以 
满足 与 全 QR 阵列 相同 的 吞吐 量 性 能 。 


12.9.2 可 参数 化 控制 


不 同 架构 设计 的 一 个 关键 方面 是 由 驱动 这 些 结 构 中 乘法 器 的 控制 数据 决定 
的 。 因 为 已 经 得 到 应 用 的 各 种 映射 ， 所 以 认为 IC 运算 有 4 个 不 同 的 运算 模式 
是 更 贴切 的 ， 分 别 是 输入 、 反 射 的 输入 、 未 反射 输入 和 反射 单元 ( 见 图 12- 
35，Walke1997) ， 其 中 x fV x 输入 的 数据 且 代 表 了 旋转 参数 9。 反射 的 IC 是 
从 QR 阵列 导出 矩形 处 理 器 阵列 的 折 县 结果 ， 并 且 简 单 地 反映 出 不 同 的 数据 
流 。 单 元 的 定位 是 由 乘法 器 和 控件 共同 管理 的 ， 因 此 单元 的 定位 是 一 个 关于 控 
制 信号 发 生 的 问题 。 

运算 的 4 个 模式 通过 两 个 控制 信号 控制 ， 其 中 一 个 是 C， 它 决定 x 是 来 自 阵 
5) CI) 的 还 是 来 自 外 部 数据 〈E) BU; BITEF, CRG (M) 和 
FHE (U) 的 运算 。 后 者 决定 输入 的 资源 方向 。 输 出 来 自 单元 的 对 面 。 每 个 架 
构 中 决定 控制 部 分 的 机 制 在 后 面 章节 中 给 出 。 


12.9.3 线性 架构 


线性 架构 的 控制 信号 源 自 它 的 数据 调度 。 单 元 的 运算 模式 在 每 个 调度 周期 被 
决定 ， 见 表 12-5。 图 12-36 所 示 需 要 有 用 来 接收 和 处 理 正 确 数据 的 环境 控制 和 
乘法 器 的 QR 单元 。 表 12-6 给 出 了 一 个 全 QR 运算 的 控制 信号 的 例子 。 
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图 12-35 处 理 器 阵列 中 的 单元 种 类 。 摘 自 Design of a Parameterizable Silicon Intellectual 
Property Core for QR-Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Sys- 
tems, Vol.11, No, 4, © 2003 IEEE 


12-5 线性 阵列 的 QR 单元 的 运算 的 模式 























其 他 变 式 架构 的 控制 和 定时 更 加 复杂 ， 但 是 都 源 自 原始 线性 阵列 的 控制 。 需 
要 考虑 控制 序列 上 时 延 的 影响 ， 并 且 在 矩形 的 变 式 中 ， 单 元 需要 能 够 接收 来 自 上 
下 单元 和 邻近 单元 的 输入 x 和 6。 每 个 变 式 应 该 被 轮流 监控 。 


12.9.4 稀疏 线性 架构 


图 12-37a 所 示 为 被 分 配 到 每 个 IC 上 的 两 列 运算 。 从 图 12-37b 所 示 的 部 分 
调度 中 可 以 看 出 ， 一 个 在 阵列 中 从 左 到 右 的 值 要 进行 传递 需要 大 量 的 时 延 。 从 
BC (1, 1) 到 邻近 的 IC (1, 2) 的 传递 % 花费 了 3 个 周期 。 但 是 ， 从 IC 到 BC 
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Xout Bout 
b) 


a) 
KI 12-36 线性 架构 的 QR 单元 。 摘 自 Design of a Parameterizable Silicon Intellectual Prop- 
erty Core for QR-Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Sys- 


tems, Vol.11, No.4, © 2003 IEEE 
a) 边界 单元 b) 内 部 单元 


的 传递 Kiz 仅 仅 花费 了 1 个 周期 。 
表 12-6 外 部 /内 部 x 输入 和 反射 / 非 反 射 单元 的 线性 阵列 控制 
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无 镜像 — DNE 镜像 ”末端 单元 
b) 





图 12-37 ”稀疏 的 线性 阵列 调度 
a) 处 理 器 阵列 b) 调度 


图 12-38 中 的 例子 展示 了 IC 的 3 列 的 分 区 。 将 它们 调度 到 一 个 单个 的 处 理 
器 上 ， 要 求 维持 住 它们 的 相继 次 序 。IC 运算 已 经 被 编号 了 , 第 1 行 是 1, 2 和 3; 
第 2 行 是 1', 2' 和 3'’。 从 运算 2 产生 的 输出 为 1' 和 3'’。 因 为 所 有 的 运算 都 在 同一 
个 处 理 器 上 执行 ， 所 以 需要 保留 这 些 时 延 值 ， 一 直 保 留 到 运算 1' 和 3' 需 要 它们 
时 。 运 算 3 在 运算 1 之 前 被 执行 ， 并 且 运 算 3 ， me 都 在 运算 3 "之 前 执行 ， 这 
分 别 与 两 个 和 4 个 周期 的 时 延 有 关 。 

根据 如 图 12-39 所 示 被 分 配 到 每 个 IC 上 的 处 理 器 阵列 中 运算 的 列 的 数量 
Nic， 这 已 经 得 到 了 一 般 的 定义 。 

一 般 来 说 ，x 和 这 两 个 输出 值 被 从 运算 (c+1) 传递 到 < 和 (c+2) 中 来 匹 
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配 图 12-39。 这 个 被 反馈 到 一 个 具体 的 运算 上 的 值 ， 依 靠 表 12-6 中 所 概括 的 来 
判断 执行 运算 是 折 又 模式 还 是 非 折 释 模 式 。 如 果 数 据 在 同类 型 的 单元 之 间 传 输 
(也 就 是 U 一 U， 或 者 M 一 M) ， 然 后 根据 表 12-7， 则 时 延 要 么 是 -1 要 么 是 +1。 
但 是 ， 如 果 数 据 在 不 同 单元 之 间 传 输 〈 也 就 是 UM a MU), ， 那 么 时 延 的 
量 会 是 Nic。 这 在 表 12-7 中 已 经 得 到 了 概括 。 
312-7 稀 琉 线性 阵列 的 要 求 时 延 

















数据 在 单元 之 间 的 传递 : 
在 处 理 器 阵列 中 显示 的 

U: ARH FA QR 运 " 需要 的 时 延 水 号 

不 反射 按照 QR 运算 的 方向 数据 流 的 方向 需要 的 时 标 
M: 反射 的 

(i, j) 9 (i, f+1), 0 > 
UU 
BJ) elt +1, J)a Nic -1 D; 




















jJ) — (i41, f), D; 
M—M 
(5j) = (5*1), D, 
UM (最 后 的 单元 ) | (i, j) 一 (i, j+1), 















MU (最 后 的 单元 ) |C, j) 一 G1, j), 


示例 Nic = 


调度 线 





mmt 


】 j 映射 到 一 个 


内 部 单元 
图 12-38 一 个 处 理 器 上 的 三 列 的 分 区 的 例子 





在 稀 玻 线性 架构 中 ， 这 些 时 延 可 以 保持 想 要 的 调度 ， 如 图 12-40 所 示 。 时 延 
的 三 个 级 恰好 被 标 为 Dl D, 和 D3。 这 些 时 延 能 被 重 分 配 来 形成 一 个 更 加 有 效率 
的 QR 单元 架构 ， 如 图 12-41 所 示 。 附 加 的 L 和 R 控制 信号 表明 输入 的 方向 源 ， 
M E 和 I 控制 值 决 定 输入 是 来 自 一 个 邻近 的 单元 还 是 同样 的 单元 。EC 指 的 是 最 
后 略微 不 同 的 IC ， 因 为 当 单元 需要 从 输出 接收 输入 时 ， 会 有 两 个 运算 模式 。 这 
个 例子 的 控制 序列 见 表 12-8。 
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" 操作 之 间 的 周期 数 
gg - ee - irs 
p m c’ H: (t+c+Njc)-(t+c+1) = Nic -1 
w — A AAS (c+1Y 为 : (t+c+Nic+1)-(t+c+1) = Nic 
| 投影 到 一 个 (c+2) 为 : (t+ctNic+2)-(t+c+1) = Nicol 
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图 12-39 Nic 列 投影 到 处 理 器 上 的 通用 分 区 





9, 0g XL Xp 8, Br XL Xp 
中 间 的 内 部 单元 结束 的 内 部 单元 





Fd 12-40 稀 玖 线性 阵列 单元 
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O, O XL Xr B & X X 
中 间 的 内 部 单元 结束 的 内 部 单元 


图 12-41 分 布 时 延 的 稀 朴 线性 阵列 单元 
4512-8 PRATER TN AGES BF BJ 
me raed 外 部 输入 控制 ETE Hil 内 部 控制 
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从 表 12-8 中 ， 可 以 看 出 EC 与 R 相同 而 与 相反。 此 外 ， 由 于 E 和 I 的 每 
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个 周期 状态 的 交替 ， 因 此 一 个 控制 序列 可 以 决定 内 部 输入 的 控制 。 
© $7 


标 为 D。 控 制 信号 被 分 类 为 外 部 输入 控制 C 
HARM F EIEH L, 和 内 部 输入 控制 D,。 
下 标 代表 控制 信号 被 反馈 到 的 单元 的 坐标 。 

稀 琉 线性 阵列 的 关键 问题 之 一 是 调度 上 的 
QR 单元 中 时 延 的 影响 〈 先 前 被 假设 的 一 个 周 


期 时 延 ) 。 随 着 线性 架构 ， 调 度 由 于 时 延 得 到 . 


缩放 。 但 是 随 着 稀 朴 线性 阵列 ， 时 延 Nic -1， 
Nic 和 Nic +1 为 了 保持 原始 调度 的 架构 会 需要 
被 缩放 ， 这 会 造成 效率 降低 。 

在 图 12-42 中 给 出 的 例子 中 ，IC 的 时 延 为 
3， 因 此 给 予 一 个 最 小 值 Mic A 4 的 时 钟 周期 。 
从 而 Nic +1 为 5 个 时 钟 周期 上 且 Nic -1 为 3 个 时 
钟 周 期 。 图 12-42 中 的 阴影 单元 显示 了 一 个 完 


整 的 有 着 互 连 性 的 QR 更 新 。 剩 下 的 QR 运算 被 >- 
展示 出 来 , 但 是 限制 细节 变 得 简洁 了 。IC 的 时 ， 


延 可 能 会 超过 被 分 配 到 每 个 处 理 器 上 的 列 的 数 
量 ， 黎 玻 线性 阵列 中 的 时 延 会 依靠 Lic 就 讲 得 通 
了 ， 也 就 是 时 延 (Nic - 1) 不 会 被 需要 并 且 调 度 
的 重 排 会 被 执行 一 个 或 两 个 周期 时 延 ， 这 个 时 
延 在 图 12-41 中 得 到 了 编号 。 突 出 的 单元 代表 
了 一 个 全 QR 的 更 新 ， 同 时 另 一 个 被 标号 的 单 
元 代表 了 交错 的 QR 运算 。 调 度 中 没有 被 标号 
的 灰色 BC 代表 没有 被 使 用 的 位 置 。 


12.9.5 和 矩形 架构 


矩形 架构 包含 了 串联 的 多 重 线性 阵列 架 
构 。 因 此 ， 需 要 配置 QR 单元 来 使 得 它们 能 够 
从 上 面 的 线性 阵列 接收 输入 。 此 外 ， 项 部 的 线 
性 阵列 需要 能 够 从 底部 的 线性 阵列 接收 值 。 
QR 单元 如 图 12-43 所 示 。 控 制 信号 和 1 决 


定 X 输 入 是 外 部 的 (也 就 是 系统 输入 ) 还 是 c 


内 部 的 。 控 制 值 了 指 来 自 上 面 阵列 的 输入 上 且 A 
指 来 自 邻 近 单元 的 输入 。 当 被 作为 下 标 时 ， 
TR fil TL 指 来 自 上 面 阵列 的 右 单 元 和 左 单元 的 


这 个 控制 值 被 
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图 12-42 稀疏 线性 阵列 在 调度 
时 延 上 的 影响 (Lye =3) 
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值 ; AR 和 AL 指 同样 的 线性 阵列 中 来 自 右 和 左 邻近 单元 的 值 。 


Or Xex Xex 





Xout 
边界 单元 内 部 单元 
图 12-43 ”矩形 阵列 的 QR 单元 


12.9.6 稀疏 矩形 架构 


PATE EI AY QR 单元 需要 能 反馈 输入 到 它们 自身 中 ， 已 经 讨论 了 线性 构 
架 和 矩形 架构 在 此 部 分 的 变换 。 附 加 的 控制 电路 被 包含 在 如 图 12-44 所 示 的 QR 





内 部 单元 
图 12-44 稀 蚊 矩形 阵列 的 QR 单元 。 摘 自 Design of a Parameterizable Silicon Intelletual Prop- 
erty Core for QR-Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Systems, 
Vol. 11, No.4, © 2003 IEEE 
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图 中 。 控 制 和 时 延 想 要 通过 稀 玻 阵列 的 重 排 调度 被 一 起 放 进 LMR 复 用 器 单元 
(E 12-45) 内 ， 在 本 节 的 演示 中 需要 考虑 重 定时 的 延迟 。 

讨论 在 稀 玻 线性 阵 中 ， 如 何在 数据 值 中 要 求 插入 特定 的 延 时 来 重 排 调度 。 这 
也 应 用 到 了 和 矩阵 列 中 并 且 可 以 使 用 同样 的 规则 。 





L MR 
图 12-45 稀疏 阵列 的 LMR 控制 电路 。 摘 自 Design of a Parameterizable Silicon Intellectual 
Property Core for QR-Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI 
Systems, Vol. 11, No.4, © 2003 IEEE 





REF PACE PAE I), BERIE A Je ERE BLAEUE Bd BE EE Arp, 3s 
RAT RA BU LA BAT, SR HERE — 1 AR AES EIA T. Alt, 
该 控件 是 来 自 稀 朴 线性 类 型 的 控制 。 下 一 部 分 将 处 理 各 种 QR 架构 生成 控制 参数 
的 方法 。 除 了 目前 显示 的 控制 外 ， 下 一 个 部 分 还 将 分 析 在 控制 生成 中 时 延 是 如 何 
考虑 的 。 


12.9.7 通用 QR 单元 


如 图 12-44 Bran, FeRAM QR 单元 通过 改变 控制 信号 和 定时 参数 可 以 
被 用 在 所 有 的 QR 架构 变 式 上 。 但 是 ,在 稀 朴 矩阵 列 的 变 式 中 ， 有 被 徐 和 到 LMR 
控制 单元 中 的 附加 进来 的 时 延 。 这 些 在 全 线性 和 甜 形 阵列 版 本 中 可 以 被 移 除 ， 对 
于 非 稀 疏 的 阵列 ， 通 过 人 允许 它们 是 可 编译 的 来 使 得 它们 被 设 定 为 0。 在 可 参数 化 
QR 核心 设计 中 的 关键 是 灵活 性 的 生成 通用 的 控制 信号 。 这 在 下 面 的 章节 中 会 有 


讨论 。 
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12.10 通用 控制 


先前 的 章节 详细 描述 了 源 自 QR 阵列 的 各 种 架构 。 对 需要 被 用 于 运行 电路 的 
控制 信号 给 出 一 些 细节 。 这 一 节 着 眼 于 能 被 应 用 于 所 有 QR 架构 变 式 中 控制 信号 
的 一 般 技 术 。 有 人 提议 用 一 个 软件 接口 来 将 每 个 控制 序列 当 作 一 个 位 向 量 的 种 子 
(如 Tor fl) 进行 计算 ， 这 个 种 子 会 通过 这 个 值 被 循环 一 位 一 位 地 输出 到 QR 单 
元 中 的 线性 反馈 寄存 器 中 来 得 到 反馈 。 发 展 一 个 稀 下 QR 阵列 架构 控制 的 第 一 步 
是 考虑 给 予 线性 阵列 一 个 所 需 的 通用 控制 处 理 器 。 这 能 被 作为 一 个 基础 来 使 用 ， 
从 这 个 基础 中 能 通过 折 释 和 操纵 控制 信号 进入 稀 琉 线性 阵列 要 求 的 序列 ， 以 此 来 
决定 控制 。 和 矩阵 列 的 控制 会 从 线性 架构 的 控制 中 被 简单 快速 地 生成 。 


12.10.1 线性 与 稀 疏 线性 阵列 的 通用 输入 控制 


外 部 输入 的 兰 值 跟随 有 新 的 外 部 输入 XX 的 折合 QR 三 角 阵列 进入 到 每 个 周 
期 线性 阵列 的 单元 中 。 从 最 左边 的 单元 开始 ， 一 直到 最 右边 的 单元 ， 然 后 折 又 回 
来 直到 所 有 的 2m +p +1 个 输入 被 反馈 到 具体 的 QR 更 新 的 阵列 中 。 其 中 图 12- 
46 所 示 的 一 组 QR 输入 得 到 突出 。 下 一 组 输入 跟随 同一 路 径 反 馈 ， 但 是 是 在 周期 
Tor 之 后 开始 的 。 这 就 导致 每 周期 重复 一 次 (对 线性 阵列 例子 来 说 是 7; SER 
线性 阵列 例子 来 说 是 14) 地 控制 一 个 重复 的 部 分 。 从 中 可 能 自动 生成 Ton, fV 
表 每 个 控制 信号 C~ C. 重复 部 分 的 位 的 控制 向 量 。 可 以 使 用 原始 数组 的 维 数 来 


ae es 


1 WX, X,(0) LL 


FAO SAO} pm 
X, XO pr p 





图 12-46 线性 QR 阵列 的 外 部 输入 的 控制 。 摘 自 Design of a Parameterizable Silicon In- 
tellectual Property Core for QR-Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on 
VLSI Systems, Vol. 11, No.4, © 2003 IEEE 
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实现 确定 一 系列 QR 输入 的 开始 与 之 前 设置 的 开始 的 关系 ， 由 此 产生 的 处 理 器 阵 
列 生成 了 简化 的 QR 架构 。 这 个 关系 如 图 12-47 所 示 ， 粗 线 表示 一 个 QR 更 新 的 
一 系列 输入 。 图 12-46 突出 展示 了 线性 阵列 的 外 部 输入 的 控制 。 

用 软件 代码 写 出 生成 线性 阵列 和 稀 琉 线性 阵列 的 外 部 输入 的 控制 信号 。 输 入 
被 分 解 成 两 部 分 〈 见 图 12-47) ， 一 个 处 理 从 左 到 右 的 输入 ， 而 另 一 个 处 理 从 右 
到 左 的 输入 《方向 的 改变 是 由 于 折 县 造成 的 ) 。 代 码 生 成 了 每 个 输入 到 每 个 处 理 
器 的 控制 向 量 中 控制 信号 的 位 置 。 如 果 输 入 的 一 个 向 量 的 模 大 于 另 一 个 向 量 ， 那 
么 两 个 向 量 相 减 ， 由 留 下 的 模 数 确定 起 始 位 置 。 但 是 ， 在 QR 阵列 的 最 初 的 运算 
之 后 ， 有 必要 通过 一 个 适当 的 值 来 延 时 这 个 控制 信号 。 


如 果 p KF m: 如 果 p 小 于 m: 
m+p+1 





图 12-47 线性 QR 阵列 的 外 部 输入 的 控制 。 摘 自 Design of a Parameterizable Silicon Intel- 
lectual Property Core for QR — Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on 
VLSI Systems, Vol. 11, No.4, © 2003 IEEE 
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来 自 和 矩形 阵列 的 控制 相当 简单 ， 并 且 是 直接 来 自 线性 阵列 的 控制 向 量 ， 如 图 
12-46 所 示 ， 通 过 将 信号 向 量 分 成 几 个 与 处 理 器 阵列 中 分 区 有 关 的 部 分 。 例 如 ， 
如 果 线 性 阵列 的 控制 种 子 向 量 是 8 位 宽 且 相同 系统 的 矩形 阵列 由 两 行 组 成 ， 那 么 
每 个 控制 向 量 种 子 会 被 分 成 两 个 4 位 宽 的 向 量 。 其 中 一 个 生成 第 一 个 矩阵 列 ， 男 
一 个 生成 第 二 个 矩阵 列 。 稀 玻 和 矩阵 列 的 控制 种 子 以 同一 种 方式 得 到 派生 ， 由 有 着 
一 样 Nic 值 的 稀 玻 线性 阵列 控制 。 同 样 的 代码 可 被 编译 纳入 稀 玻 阵列 需要 的 虚拟 
运算 。 图 12-48a 所 示 为 一 个 m=4, p=3 A Nic =2 的 稀 琉 线性 阵列 映射 的 实例 。 
这 个 控制 〈 见 图 12-48b) 能 被 分 成 实现 一 个 由 稀 蚊 线性 阵列 的 两 行 组 成 的 稀 疏 
和 矩形 阵列 的 两 个 部 分 。 
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图 12-48 控制 种 子 的 分 区 。 摘 自 Design of a Parameterizable Silicon Intellectual Property 
Core for QR-Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Systems, 
Vol. 11, No.4, © 2003 IEEE s 

a) WREIK A b) 外 部 输入 控制 


12.10.3 ”时 延 对 控制 种 子 的 影响 


下 一 步 是 确定 时 延 在 控制 向 量 上 的 影响 。 先 前 的 时 延 值 Dl ，D 和 D3， 正 如 
之 前 讨论 的 稀 玻 线性 阵列 ， 被 应 用 到 每 个 IC 运算 的 多 重 列 (Nic) 上 很 有 必要 ， 
其 中 对 于 一 个 有 单个 周期 时 延 的 系统 ，D = (Nic -1), Dj =Me, D3 =(Nrc+1l)。 
但 是 ， 在 真正 的 系统 中 ， 处 理 器 有 多 重 时 延 。 假 设 IC( Lic ) 时 延 比 这 些 时 延 都 
长 ,那么 增加 这 些 时 延 能 使 得 合适 的 时 延 变 为 D; = Lc, D; =Le +1 AD; = Lic 
+2。 对 于 线性 阵列 ，D, D; AID; 被 设 为 Lic， 然 后 用 编码 生成 控制 向 量 。 唯 一 
的 不 同 是 当 控 制 值 位 置 超过 了 向 量 宽度 的 时 候 。 和 单个 时 延 版 本 一 起 ， 这 通过 从 
值 中 减 去 Tor 值 来 解释 (其 中 向 量 种 子 的 宽度 是 Ton) o 

时 延 控制 序列 的 重复 部 分 是 复杂 的 。 但 是 ， 长 度 为 Tor 的 一 个 重复 的 控制 序 
列 仍然 能 找 得 到 。 当 时 延 被 包含 进 计 算 时 ， 通 过 减 小 值 来 达到 向 量 宽度 的 边界 是 
不 够 的 。 或 者 ， 向 量 中 控制 值 的 位 置 通过 Tor 的 模 数 来 找到 。 通 过 一 个 线性 阵列 
的 例子 来 展示 对 控制 向 量 上 的 时 延 影响 的 分 析 ， 其 中 这 个 阵列 的 m=3, p=5 A 
Tor =2m+1=7。 图 12-49 所 示 为 有 单个 周期 时 延 系统 的 控制 向 量 。 图 12-50 所 
示 为 当时 延 为 3 时 一 个 QR 更 新 的 输入 集合 控制 定时 的 影响 。 通 过 使 用 这 些 控制 
值 位 置 ， 给 出 了 如 图 12-51 所 示 的 控制 向 量 。 

要 强调 的 一 点 是 ， 在 被 要 求 的 输入 出 现 之 前 也 许 会 有 控制 向 量 的 几 个 周期 。 
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例如 ， 在 上 面 的 例子 中 向 量 C4 是 [1 I E II111], 但 是 , 要 求 的 第 一 个 输入 在 
那个 时 刻 等 于 10， 而 不 是 3。 因 此 有 必要 将 这 个 控制 信号 时 延 7 个 周期 再 起 动 。 
. 这 个 技术 依靠 最 初 的 控制 信号 来 起 动 处 理 器 更 加 复杂 的 控制 向 量 循环 。 这 会 由 全 
应 用 的 所 有 系统 级 控制 来 提供 。 这 个 讨论 的 方法 提供 了 生成 处 理 控 制 信号 参数 的 
方法 ， 并 且 人 允许 大 多 数控 制 参数 被 局 部 化 。 这 些 被 应 用 到 外 部 输入 定时 控制 信号 
上 的 法 则 会 因为 剩余 的 控制 信号 得 到 扩展 ， 也 就 是 折 蚕 、 内 部 输入 和 行 控制 。 





图 12-49 时 延 为 1 时 的 控制 。 摘 自 Design of a Parameterizable Silicon Intellectual Property 
Core for QR-Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Systems, 
Vol.11, No.4, © 2003 IEEE 
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K 12-50 决定 控制 向 量 中 的 位 置 。 摘 自 Design of a Parameterizable Silicon Intellectual Prop- 
erty Core for QR-Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI Systems, 
Vol. 11, No.4, © 2003 IEEE 

ao | xo] — MENU Eug 
une! Lu 


2 


PiS nea 
| — EXEN [ty 
EL lw] NE 


图 12-51 控制 种 子 上 时 延 的 影响 。 摘 自 Design of a Parameterizable Silicon Intellectual 
Property Core for QR-Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans on VLSI 
Systems, Vol. 11, No.4, © 2003 IEEE 
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12.11 波束 形成 设计 实例 


对 于 在 雷达 应 用 中 的 一 个 典型 波束 形成 ，m 的 值 会 在 20 ~ 100。 对 于 同样 的 
应 用 ， 主 要 输入 p 的 数量 一 般 会 在 1~5。 图 12-52 所 示 为 个 范例 。 一 个 方式 是 使 
用 QR 阵列 。 假 设 最 快 的 可 能 时 钟 速率 为 fcrk ， 然 后 基本 的 循环 会 决定 范例 的 性 
能 ， 生 成 一 个 利用 率 为 25% 且 Tor 为 4 个 时 钟 周期 的 设计 。 因 此 现在 主要 的 难点 
是 选择 一 个 硬件 运转 最 好 时 吞吐 量 最 好 的 架构 。 例 如 这 里 ， 需 要 一 个 15MSPS 的 
输入 样 值 速率 ， 其 最 大 的 可 能 时 钟 速率 假设 为 1 00MHz。 


三 角形 二 维 数组 
. 2m+1=45 p=4 处 理 器 阵列 





à 2m+1=45 
2m+1=45 


村 :一 -一 一 一 一 一 一 全 


1 个 边界 单元 , m+p =26 个 内 部 单元 


图 12-52 m=22, p=4 时 QR 架构 的 推 衍 。 摘 自 Design of a Parameterizable Silicon In- 
tellectual Property Core for QR - Based RLS Filtering, by G. Lightbody & R. Woods, IEEE Trans 
on VLSI Systems, Vol. 11, No.4, © 2003 IEEE 


Tor 的 值 通过 使 用 需要 的 样 值 速率 Sor ee 速率 fcrx 得 到 计算 : 


这 个 值 是 在 连续 的 QR 更 新 的 起 始 之 间 被 允许 的 最 大 周期 数 ， 因 此 ， 需 要 被 
四 舍 五 人 到 最 近 的 整数 。N,,/Nic 的 比率 通过 替代 所 知 参 数 到 下 面 的 关系 中 能 够 
得 到 计算 : 
Man. amad 45 
Her ms Es =7.5 
HR, 1<N,,,,<2m+1 (也 就 是 45) 且 1<Nic<m+p (也 就 是 26)。 通 过 使 用 
这 些 指针 ， 再 将 Nic 设 为 2，Nios 设 为 15, 一 个 有 效率 的 架构 就 能 够 得 到 推 衍 ， 
并 且 因 此 运算 被 分 配 到 15 CARRERE, 8T ART LA 177 BC 和 13 个 
IC， 如 图 12-53 所 示 。 
需要 注意 的 是 一 定 要 考虑 电路 中 的 关键 路 径 ， 以 确保 核心 计算 速度 足够 快 ， 
从 而 可 以 支持 想 要 的 QR 运算 。 在 这 里 ， 会 添加 额外 的 流水 线 站 来 减少 关键 路 径 
并 且 因 此 提高 时 钟 速率 。 但 是 ， 这 些 在 架构 分 析 中 会 对 提高 时 延 有 影响 。 处 理 器 
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的 每 行 要 对 处 理 器 阵列 中 运算 的 
3 行 负责 ， 因此 ， Tor 76, 产生 2 
一 个 16. 67MSPS 的 输入 样 值 速 3 
率 ， 它 超过 了 要 求 的 性 能 。 在 表 
12-4 中 给 出 了 一 些 QR 阵列 架构 13 
的 细节 。 14 
全 QR 阵列 实现 的 Tan 值 由 — 050 
QR 单元 的 递归 环 中 的 时 延 决 定 行 13 个 内 部 单元 
(由 一 个 浮 点 加 法 和 一 个 移 位 减 12-53 ”例子 架构 。 摘 自 Design of a Parameter- 
法 功能 组 成 )。 如 示例 所 述 ，QR izable Silicon Intellectual Property Core for QR - Based 
阵列 因为 计算 递归 环 中 的 值 而 需 RLS Filtering, by G. Lightbody & R. Woods, IEEE 
要 等 待 4 个 时 钟 周期 1 也 就 因此 Trans on VLSI Systems, Vol. 11, No. 4, © 2003 IEEE 
决定 了 系统 的 样 值 速率 。 这 个 例子 强调 了 全 QR 实现 的 性 能 在 如 此 高 花 销 的 硬件 
情况 下 只 有 少量 回报 。 正 如 表 12-4 所 示 ， 同 样 的 性 能 会 通过 减 小 处 理 器 数量 的 
和 矩形 阵列 来 得 到 实现 ， 从 而 减少 了 硬件 上 的 成 本 。 


执行 3 行 的 
T 处 理 器 阵列 


OOO oooo 
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本 章 的 目标 是 记录 自 适应 波束 形成 器 的 一 个 IP 核发 展 的 每 一 步 。 主 要 涵盖 
的 方面 是 关于 以 下 做 出 的 设计 选择 : 

1) 发 展 一 个 人 P 核 再 用 策略 使 用 设计 的 决定 ; 

2) 算法 的 决定 ; | 

3) 像 一 个 正 核 一 样 地 设计 一 个 合适 组 件 的 决定 ; 

4) 具体 的 架构 参数 ; 

5) 可 放 缩 架构 ; 

6) 运算 和 控制 的 可 放 缩 调度 。 

以 上 列 出 的 是 详细 的 自 适 应 波束 形成 器 例子 的 每 个 阶段 。 背 景 资料 提供 
的 相关 RLS 算法 决定 采用 自 适应 权 值 计 算 。 使 用 算法 的 关键 问题 是 它 的 计算 
复杂 度 。 从 技术 和 背景 研究 方面 进行 了 综述 ， 并 且 显 示 了 一 个 适合 在 三 角 脉 
动 阵列 上 实现 被 简化 的 QR - RLS 算法 的 推 衍 。 即 使 复杂 度 有 减 小 ， 但 是 仍 
然 需要 映射 全 QR 阵列 到 一 套 简化 的 架构 上 。 给 出 一 个 通用 设计 是 如 何 一 步 
步 得 到 实现 过 程 的 概述 是 本 章 的 关键 组 成 部 分 。 注 意 力 主要 集中 在 架构 的 可 
放 缩 性 及 运算 调度 的 影响 上 。 所 有 调度 问题 上 的 处 理 器 时 延 和 定时 的 影响 得 
到 了 进一步 的 详细 描述 ， 给 出 了 这 些 因素 的 重要 解释 。 最 后 ， 给 出 了 对 控制 
电路 如 何平 衡 架 构 发 展 的 例子 ， 同 时 给 出 维持 性 能 的 标准 。 按 照 设想 本 章 包 
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括 的 原则 应 该 被 扩展 到 其 他 的 IP 核发 展 中 。 
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13.1 引言 


正如 本 书 引言 中 所 表明 的 ， 研 究 人 员 做 了 许多 工作 来 提高 技术 水 平 ， 并 且 也 
研究 了 如 何 增加 晶体 管 的 数量 及 提高 单个 晶体 管 的 运行 速度 。 在 SoC 设备 平台 出 
现 期 间 ，FPGA 技术 结构 上 的 变化 已 经 成 为 FPGA 技术 成 长 的 核心 内 容 。 这 个 技 
术 的 改革 极 大 地 推进 了 FPGA 技术 的 成 功 ， 因 为 可 编程 性 能 使 得 使 用 者 能 开发 出 
高 度 的 并 行 化 及 相当 适合 DSP 应 用 的 流水 线 式 的 电路 架构 。 这 种 控制 程度 可 以 
让 使 用 者 开发 出 相当 高 的 性 能 ， 而 且 这 并 不 需要 依靠 像 在 处 理 器 实现 上 的 较 高 的 
时 钟 频率 。 

功 耗 的 问题 需要 特别 注意 。 随 着 科技 的 进步 ， 功 耗 也 相应 下 降 ， 有 人 就 认为 
功 耗 应 该 不 再 是 一 个 问题 。 虽 然 这 个 问题 是 与 单个 实现 有 关 的 晶体 管 数量 的 增加 
相关 ， 因 此 提高 了 单个 芯片 功 耗 。 可 是 这 仅仅 是 问题 的 一 方面 。 主 要 的 问题 是 在 
硅 芯 片 中 功 耗 的 本 质 也 随 着 科技 进步 变化 着 ， 而 且 这 对 FPGA 也 有 着 重要 的 影 
响 。 这 就 出 现 了 一 种 趋势 ， 那 就 是 多 年 前 被 当 作 微 不 足 道 而 且 几 乎 被 忽略 的 泄露 
功率 现在 开始 起 支配 作用 ， 这 对 所 有 微 电 子 设备 来 说 都 是 一 个 问题 。 然 而 ， 需 要 
对 芯片 内 的 连接 体 充 放 电 的 功率 与 在 前 十 年 逐渐 成 为 重要 问题 的 晶体 管 需 要 的 功 
率 相 比 ， 由 于 提供 的 可 编程 互 连 而 与 FPGA 的 实现 紧密 相关 。 这 称 作 动态 功 耗 ， 
而 且 它 会 随 着 科技 进步 越发 恶劣 。 因 此 意味 着 当 与 ASIC 技术 中 的 同等 设计 相 
HE, Æ FPGA 的 实现 中 连接 体重 要 得 多 。 当 然 ，FPGA 的 可 编程 本 质 意味 着 我 们 
能 够 做 些 什么 来 减 小 功 耗 ， 这 对 处 理 器 来 说 就 不 是 这 么 回 事 了 ， 其 中 为 了 减轻 可 
编程 性 而 开发 的 底层 构架 是 十 分 不 适合 低 功率 实现 的 。 

对 于 减少 功 耗 ， 有 着 许多 重要 的 原因 。 功 耗 的 增加 会 导致 设备 温度 的 提升 ， 
如 果 不 控制 好 就 会 对 设备 的 可 靠 性 造成 很 不 好 的 影响 。 低 功 耗 对 降低 热量 的 发 散 
是 有 影响 的 ， 这 能 使 温度 管理 的 成 本 变 得 更 低 ， 依 据 封装 成 本 分 配 芯片 中 的 热 
量 ， 因 此 避免 了 在 微 处 理 芯片 上 出 现 大 量 “ 铝 塔 ” ， 并 且 也 减少 了 成 本 或 甚至 减 
少 了 利用 基于 风扇 让 系统 降温 的 需求 ， 这 个 风扇 系统 通常 需要 更 好 的 空气 流动 来 
降低 整个 板子 表面 的 温度 。Xilinx Inc. (2007) 中 说 到 “设备 工作 温度 降低 
10*C 可 以 转变 为 两 倍 的 元 件 寿 命 ”。 一 个 低 功 率 的 FPGA 实现 对 整个 系统 的 供电 
设计 有 最 直接 的 收益 ， 这 使 得 使 用 的 元 件数 量 更 少 、 价 格 更 低 。 比 如 ， 一 个 高 性 
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能 能 量 系统 的 实现 成 本 估计 在 每 瓦特 0.5 ~1.0 美元 (Xilinx “Inc. 2007) 。 因 此 ， 
减少 FPGA 的 功 耗 在 成 本 和 可 靠 性 上 都 会 有 明显 的 影响 。 

因为 在 没有 提高 系统 成 本 或 系统 规模 的 前 提 下 ， 电 池 技 术 并 没有 为 能 量 的 提 
高 提供 任何 的 创新 ， 使 得 便捷 性 更 加 依赖 于 设备 功 耗 的 降低 。 随 着 新 的 服务 引入 
移动 终端 硬件 ， 系 统 性 能 的 预算 也 会 随 之 提高 ， 而 这 一 定 是 在 目前 减 小 了 的 功率 
预算 中 实现 的 。 为 了 降低 危险 ， 就 意味 着 需要 使 用 可 编程 的 硬件 来 解决 ， 而 这 就 
直接 意味 着 较 高 的 功 耗 。 

本 章 的 目的 是 概述 功 耗 源头 及 能 够 减少 功 耗 源头 的 技术 。 从 13. 2 节 开 始 着 
眼 于 不 同 的 能 源 及 通过 半导体 技术 蓝图 (IRTS 2003). 来 预测 它们 将 来 的 变化 。 
13. 3 节 将 简洁 回顾 减少 功 耗 的 可 能 方法 。 将 在 13.4 节 介 绍 电压 的 降低 ， 它 是 减 
少 静 态 功 耗 的 一 种 技术 。 但 是 ， 通 过 FPGA 中 的 电压 缩放 来 减少 功率 是 有 限制 
的 ， 这 都 是 为 了 安全 地 操作 设备 ， 需 要 小 心地 选择 电压 ， 在 13. 5 节 中 将 会 有 大 
量 的 减少 动态 功 耗 技术 的 概述 。 其 中 包括 流水 线 的 使 用 、 局 部 的 强制 性 、 数 据 重 
排 和 固定 参数 的 开发 利用 。 在 13. 10 节 中 ， 这 些 技术 的 一 部 分 会 被 应 用 到 FFT 和 
实际 功率 的 设计 上 。 


13.2 能 源 消 耗 


CMOS 技术 中 的 功 耗 会 被 分 为 两 部 分 ， 也 就 是 静态 功 耗 和 动态 功 耗 ， 静 态 功 
耗 正如 其 名 是 当 电 路 在 以 静态 模式 开启 并 处 理 必 要 数据 时 消耗 的 功率 ， 而 动态 功 
耗 则 是 芯片 运作 时 的 功 耗 。 静 态 功 耗 对 备 
用 模式 下 的 电池 寿命 很 重要 ， 因 为 它 表示 
了 上 电 时 的 功 耗 。 动 态 功 率 对 运行 时 的 电 
池 寿 命 有 重要 作用 ， 因 为 它 代 表 了 在 处 理 
数据 时 的 功 耗 。 静 态 功 耗 包含 了 如 图 13-1 ae 
所 示 的 大 量 组 成 部 分 。 栅 极 漏电 是 栅 极 到 

基 极 的 电流 ， 源 极 到 漏 极 〈 阔 值 电流 ) 漏 

电 即 认为 设备 是 关闭 的 时 候 在 通道 中 从 漏 

极 流向 源 极 的 电流 (也 就 是 栅 极 与 源 极 之 ”图 13-1 MOS 品 体 管 中 泄 露 源 部 分 
间 的 电压 Fes 比 晶体 管 的 阔 值 电压 Vi 要 低 )， 以 及 当 源 极 和 漏 极 的 电势 高 于 基 极 
时 ， 通 过 晶体 管 的 源 极 到 基 极 的 结 和 漏 极 到 基 极 的 结 的 反 向 偏 置 BTBT 电流 。 


13.2.1 动态 功 耗 


对 于 动态 功 耗 ， 通 过 如 图 13-2 所 示 的 一 个 简单 反 相 器 的 泄露 量 将 其 纳 人 了 
考量 。 假 设 一 个 脉冲 的 数据 馈 和 人 到 对 设备 充 放电 的 晶体 管 中 。 当 栅 极 使 得 它们 的 
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反 相 器 中 晶体 管 p Dn 极 的 电阻 值 时 就 会 消耗 
因此 ， 通 过 电容 电流 和 其 电压 可 以 表示 为 ”输入 

xk (13-1) (Wolf 2004) 。 


Vpp - V. 
ig (t) ap. EA -VRyC,) (13-1) 
P 


在 电容 充电 时 的 功率 要 求 如 式 (13-2), 


ve(t) =Vpp - Vss[1 -e ec ] (13-2) 图 13-2 简单 COMS 反 相 器 
给 电容 器 充电 所 需要 的 能 量 为 4 





Ec = [Cie CO Vo, C Jee (13-3) 
-:[à ( Vpp - pi e hao alee (13-4) 
= 二 Ci (Vopn - Vss)? (13-5) 


当 电 容 放 电 时 ， 同 样 量 的 电荷 分 散 并 穿 过 nn 型 晶体 管 ， 在 晶体 管 运行 的 一 个 
周期 里 ， 电容 消耗 的 总 能 量 为 了 CL (Vpp -Vss)*。 若 这 被 纳入 设计 的 正常 运行 


中 , 其 中 假设 在 时 钟 频率 了 下 同步 运行 ,那么 就 能 得 出 总 功 耗 为 十 Cr 


(Von - Vss) fo 但是， 这 就 假设 了 每 个 晶体 管 都 以 时 钟 频率 进行 充 放 电 (这 是 不 
可 能 发 生 的 ) 。 因 此 引入 a 来 指示 有 多 少 品 体 管 在 充电 。 对 于 不 同 的 电路 ，a 的 
值 是 不 同 的 ， 见 表 13-1 (Chandrakasan 和 Brodersen 1996) , 

表 13-1 典型 转化 率 (Chandrakasan 和 Brodersen 1996) 

















信号 类 型 转换 率 (a) 
时 钟 信号 0.5 
随机 数据 信号 0.5 
随机 数据 驱动 的 简单 逻辑 电路 0.4 ~0.5 
有 限 状 态 机 0. 08 ~0. 18 
视频 信和 号 0.1 (MSB) ~0.5 (LSB) 
结论 0.05 ~0.5 
Pin = C1 (Von -Vss)*f a (13-6) 


34 ss 假设 为 0 时 , XX (13-6) 可 简化 为 式 (13-7)。 
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1 
Pay, = CL Vnfa (13-7) 


此 外 ， 短 路 电流 被 归 类 为 动态 功 耗 。 当 栅 极 的 输入 信号 上 升 / 下 降 时 间 大 于 
输出 端口 时 ， 会 产生 短路 电流 ， 这 就 产生 了 输入 和 输出 间 的 不 平衡 ， 这 也 意味 着 
供电 压 了 pp 在 极 短 时 间 内 会 发 生 短路 。 这 特别 会 发 生 在 当 唱 体 管 驱 动 一 个 大 的 容 
性 负载 时 ， 不 过 有 人 认为 在 比较 好 的 设计 中 ， 这 是 能 够 避免 的 。 因 此 在 某 种 程度 
上 ， 短 路 功 耗 是 可 控 的 。 


13.2.2 静态 功 耗 


缩放 技术 为 大 量 的 产品 革新 提供 了 动力 ， 因 为 它 能 缩小 晶体 管 的 尺寸 ， 如 图 
13-3 所 示 。 简 单 来 说 ,通过 来 缩小 晶体 管 意味 着 图 13-3b 所 示 唱 体 管 的 新 尺 
FÆ L' =1/k(L), W =1/k(W) Ht, =1/k(tox)。 显 然 ， 晶体 管 的 数量 会 增加 户 
且 晶 体 管 的 速度 也 得 到 提高 ; 随 着 晶体 管 中 电流 的 减少 ， 电 流 晶 体 管 中 的 功 耗 也 
会 按 预期 降低 。 


de 





4— W' — Y 





DT 
源 极 漏 极 漏 极 


图 13-3 晶体管 缩 放 的 影响 
a) 原始 工艺 b) 复合 源 


然而 功 耗 的 预期 降低 并 没有 发 生 。 为 了 避免 缩小 后 的 结构 中 电场 过 大 ， 有 必 
要 减 小 供电 电压 Vooo KIKRE Vi 也 需要 减 小 ， 否 则 晶体 管 将 不 能 正确 
关闭 。 立 值 电压 的 减 小 导致 闹 值 电流 的 增 大 。 为 了 处 理 因为 缩小 晶体 管 尺寸 而 导 
致 的 通道 变 短 的 影响 ， 所 以 需要 减 小 氧化 层 厚 度 ， 这 也 导致 了 要 通过 晶体 管 的 栅 
极 绝缘 层 稍 加 困难 ， 从 而 产生 栅 极 漏电 。 因 此 栅 极 泄漏 量 与 栅 极 氧化 层 成 反比 ， 
而 这 个 氧化 层 为 了 性 能 的 提高 会 继续 减 小 ， 这 就 导致 问题 越发 恶化 。 

缩小 设备 也 需要 在 源 极 到 基 极 和 漏 极 到 基 极 结 点 的 附近 使 用 较 高 的 摊 杂 浓 
度 ， 这 都 是 为 了 减 小 耗 尽 区 。 但 是 在 较 高 的 反 偏 电压 下 ， 这 会 产生 穿 过 这 些 结 的 
极 大 的 BIBT 电流 (Roy 等 ”2003 ) 。 其 结果 就 是 缩放 导致 了 这 些 组 件 的 泄露 量 
急剧 增加 ， 并 且 随 着 结 点 温度 的 升 高 ， 因 为 漏电 影响 的 增加 ， 导 致 情况 越 加 亚 化 
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( Xilinx Inc. 2007) 。 

随 着 晶体 管 数量 的 增加 ， 主 要 的 问题 是 它们 对 静态 功 耗 的 影响 在 增加 。 这 是 
从 图 13-4 中 得 到 的 概述 ， 这 张 图 摘自 国际 半导体 技术 蓝图 (IRTS 2003), (Kim 
等 2003) ， 这 个 图 中 的 交叉 点 出 现在 90nm 及 更 小 的 技术 结 点 处 ， 这 一 点 对 大 量 
应 用 来 说 是 静态 功率 开始 超越 动态 功率 。 


进程 节点 /nm 
500 350 250 180 130 90 65 45 22 
00 


标准 化 能 量 





E 13-4 随 着 技术 革新 静态 能 量 功 耗 相对 动态 能 量 功 耗 的 影响 
(Kim “ 2003) 摘自 © IEEE 


这 张 图 对 大 量 的 技术 都 有 着 很 大 的 影响 ， 正 如 它 现在 表明 的 ， 基 本 没有 影响 
设备 动态 处 理 的 前 十 年 的 功 耗 问题 ， 使 得 设计 者 能 减 小 它 的 影响 ， 在 设备 的 正常 
待机 运行 方式 上 将 预测 不 到 功 耗 。 这 将 对 固定 的 系统 设计 有 影响 ， 但 这 主要 是 对 
无 线 应 用 。 之 后 将 会 采用 许多 方法 来 处 理 。 

通过 在 90nm FPGA 中 使 用 三 栅 极 氧化 层 (Xilinx Inc. 2007), Xilinx 曾经 试 
图 在 Virtex -4 及 接 下 来 的 设备 中 处 理 庞 大 的 静态 功率 的 影响 。 使 用 三 栅 极 氧化 
层 来 表示 在 FPGA 中 使 用 的 三 层 氧 化 层 。 薄 的 氧化 层 是 给 FPGA 核 中 的 小 的 、 快 
速 的 晶体 管 使 用 的 ， 厚 的 氧化 层 是 用 于 VO 接口 的 更 高 电压 的 摇摆 晶体 管 ， 它 不 
需要 很 快 的 速度 ， 而 一 个 称 为 中 间 厚 度 氧 化 层 的 三 层 氧化 层 则 用 在 配置 处 理 器 元 
件 及 互 连 传输 晶体 管 中 。 这 些 晶 体 管 运行 的 冰 值 电压 要 高 于 薄 氧 化 层 的 晶体 管 ， 
但 是 因为 它们 仅仅 用 于 为 逻辑 和 数据 传输 来 存储 配置 ， 所 以 对 速度 没有 严格 的 要 
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求 。 在 减 小 功 耗 上 这 无 疑 是 一 个 明智 的 取舍 ， 而 且 它 并 不 适用 于 除 FPGA 以 外 的 
技术 ， 比 如 微 处 理 器 和 DSP 处 理 器 ， 除 非 它 们 有 存储 配置 数据 的 晶体 管 。 

Altera 使 用 了 相似 的 策略 ， 即 使 用 两 种 类 型 的 晶体 管 ， 第 一 种 是 有 着 低 阐 值 
电压 及 较 小 最 小 通道 长 度 的 晶体 管 ， 这 种 晶体 管 是 为 了 在 DSP 块 和 逻辑 元 件 中 
高 速 地 运行 ; 第 二 种 是 有 着 更 高 阔 值 电压 及 较 大 通道 长 度 的 一 种 低 功 耗 晶 体 管 ， 
这 是 为 了 根据 比如 配置 RAM 和 存储 模块 的 性 能 使 得 芯片 实现 更 小 面积 的 要 求 。 

当 处 理 静 态 功 耗 在 开发 低 功率 FPCA 实现 上 因此 变 得 重要 时 ， 它 需要 视 使 用 
在 FPGA 结构 上 大 量 的 晶体 管 的 底层 应 用 而 定 ; 它们 有 一 些 是 用 于 存储 和 控制 
的 ， 而 且 也 是 因此 没有 受 设 计 者 的 直接 影响 。 此 外 ， 为 了 以 上 概述 的 低 功率 性 
能 ， 设 备 已 经 得 以 最 优化 。 但 是 ， 从 静态 功 耗 角度 ， 仍 有 着 能 减 小 功 耗 的 技术 。 

时 钟 树 的 隔离 

静态 功 耗 主要 的 参与 者 之 一 是 穿 过 它 的 分 布 网 络 的 时 钟 信号 ,也 称 作 时 钟 
树 ， 而 且 电 路 与 之 相连 ， 它 将 会 在 有 规律 的 基础 上 进行 转变 ， 特 别 是 如 果 设 计 为 
同步 的 。 正 如 第 5 章 所 述 ， 大 多 数 FPGA 拥有 许多 PPL 和 独特 专用 时 钟 树 网 络 时 
钟 信号 ， 它 能 够 根据 要 求 进行 开关 。 这 是 通过 使 用 MUX 关闭 FPGA 的 一 部 分 来 
实现 的 。 

Virtex -4 FPGA 是 通过 门 控 时 钟 模块 实现 的 ， 这 个 门 控 时 钟 提供 了 一 个 关闭 
全 局 时 钟 网 络 的 有 效 方法 。 这 上 比 简单 地 禁止 触发 器 更 加 有 效果 ， 因 为 它 使 得 较 大 
的 切换 网 络 能 够 关闭 ， 从 而 避免 由 于 剧烈 切换 带 来 的 动态 功率 消散 。 此 外 ， 应 该 
注意 到 不 像 式 (13-7), 这些 网 络 是 在 时 钟 频率 下 计时 的 ， 因 此 功率 会 减少 
许多 。 


13.3 降低 功 耗 的 技术 


通过 检验 式 (13-4), 很 明显 对 于 动态 能 量 功 耗 有 许多 因素 都 是 可 以 改变 
的 。 供 电 电压 ip 已 经 被 FPGA 供应 商 预 先 确定 了 (并且 最 佳 化 地 提供 低 功 耗 处 
理 ) ， 并 且 使 用 者 能 通过 设计 软件 有 效 利 用 这 个 电压 减 小 的 范围 。 这 就 只 剩 下 了 
其 他 参数 的 调整 ， 也 就 是 时 钟 频率 .人 转换 速率 a 及 负载 电容 Cr 决定 的 触发 率 。 
但 是 调整 时 钟 频率 f 和 转换 率 a 的 任何 技术 应 该 在 理解 到 一 点 的 前 提 下 得 到 开 
发 ， 这 一 点 就 是 系统 的 整个 时 钟 速率 一 般 由 应 用 决定 ， 以 及 转换 率 将 由 应 用 领域 
进一步 管理 ， 这 意味 着 表 13-1 应 该 得 到 重视 。 

一 般 来 说 ， 减 小 功率 的 技术 要 么 是 最 小 化 转换 电容 G， 要 么 使 用 通过 提高 
系统 吞吐 量 来 减 小 供电 压 ， 要 人 么 通过 并 行 硬 件 的 使 用 从 而 增加 面积 和 电容 量 或 提 
高 速度 (Chandrakasan 和 Brodersen 1996)。 电 压 的 减 小 会 让 性 能 慢 下 来 直到 在 较 
低 的 功 耗 预算 下 达到 要 求 的 吞吐 率 。 后 一 种 方法 使 得 功率 成 二 次 方 减 小 ， 但 这 是 
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以 区 域 的 线性 增长 为 代价 的 ， 也 就 是 C, 和 /或 频率 .六 在 FPGA 中 这 是 更 加 困难 
一 点 ， 但 是 在 Chow 等 〈2005) 中 有 合适 的 解决 技术 ， 这 将 在 第 13. 4 节 中 介绍 。 

电容 量 和 转换 率 还 有 减 小 的 余地 ， 但 不 能 将 它们 分 开 考虑 ， 思 考 减 小 电路 的 
开关 电容 是 很 有 用 的 ， 也 就 是 每 个 节点 的 所 有 转换 率 乘 上 该 节点 电容 量 的 总 和 。 
与 电路 电容 截然 相反 ， 这 是 功 耗 上 一 个 很 重要 的 措施 ， 因 为 一 个 电路 要 么 是 不 会 
有 太 大 功 耗 且 有 着 “ 低 ” 转 换 率 的 “ 较 大 ”电容 网 络 ， 要 么 是 有 着 较 大 功 耗 且 
有 相当 “大 ”转换 率 的 大 量 “ 低 ”电容 量 网 络 。 在 转换 率 层 上 应 用 有 同样 的 争 
论 ; 一 些 网 络 有 着 较 高 的 转换 率 ， 但 是 电容 量 却 很 低 。 许 多 技术 也 都 进入 了 这 个 
领域 ， 因 此 在 第 13. 5 节 中 有 详细 的 阐述 。 


13.4 FPGA 中 电压 按 比例 缩小 


正如 名 称 所 示 ， 电 压 按 比例 缩小 涉及 要 在 保证 电路 正常 工作 的 前 提 下 减 小 电 
路 的 供电 电压 。 比 较 有 代表 性 的 是 ， 设 计 者 将 通过 设计 技术 开发 一 切 的 电压 容量 
来 放 慢 电路 的 运行 ， 可 能 通过 减 小 一 定 的 面积 或 一 些 其 他 的 增益 来 实现 。 降 低 电 
压 也 许 会 造成 电路 故障 ， 像 关键 路 径 定时 也 许 就 会 产生 故障 。 这 是 因为 缩小 电压 
会 产生 电路 时 延 如 ， 正 如 式 (13-8) 所 确定 的 (Bowman 等 1999), 

NEL 
t (Von - V)? | 

AF, kia 为 常数 ， 且 1<aw<2; 当 Vpp 缩 小 时 ， 电 路 时 延 ty 也 会 增加 。 

电压 缩小 的 影响 能 通过 两 方面 来 处 理 ， 当 电压 缩放 发 生 在 一 个 具体 的 FPGA 
实现 中 时 ， 增 加 电路 来 准确 监测 并 且 监 测 出 正确 的 电压 阔 值 来 实现 低 功率 运行 
(Chow 等 ” 2005 ) ， 另 一 方面 是 应 用 设计 技术 来 提高 电路 的 运行 速度 。 

其 中 的 一 种 方法 是 提高 运算 速度 ， 如 图 13-5 所 示 。 如 果 假 设 如 图 13-5a 所 
示 操 作 在 运行 电压 下 匹配 速度 要 求 ， 然 后 要 么 将 并 行 添加 到 电路 实现 中 ， 要 么 对 
并 行进 行 开 发 (在 许多 DSP 系统 中 通常 是 这 样 的 ) ， 则 能 产生 如 图 13-5b 所 示 电 
路 。 现 在 这 个 电路 运行 得 比 原始 电路 更 加 快 ， 因 此 电压 缩小 的 应 用 是 有 可 能 的 ; 
又 由 于 仿 b 电 压 的 缩小 和 频率 的 缩小 会 导致 功率 的 降低 。 当 然 ， 图 13-5b 所 示 电 
路 会 有 一 个 更 大 的 面积 、 电 容量 及 转换 率 , 但 是 二 次 方式 的 ， 以 及 频率 的 减 小 会 
得 不 偿 失 。 

考虑 电压 缩小 能 应 用 于 FPGA 的 可 能 方法 是 很 重要 的 。 这 应 该 仅仅 应 用 于 
FPGA 核 ， 因 为 FPGA 核 的 应 用 范围 更 加 宽广 ; 这 是 可 能 的 因为 已 经 为 核 和 LO 
接口 准备 了 大 量 的 Vop Sl. YO 接口 按照 已 经 设计 出 的 规范 来 运行 是 很 重要 
的 ， 特 别 像 一 些 静 态 功 耗 技术 将 会 被 应 用 到 FPGA 设备 上 ， 比 如 Xilinx Virtex-4 
和 -5 系列 及 Alter's Stratix IL &IIILFPGA 系列 。 降 低 电 压 会 增加 电路 的 时 延 ， 但 
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a) 


13-5 ”使 用 并 行 (和 电压 的 缩放 ) 来 降低 能 量 功 耗 
a) 原始 实践 b) 并 行 实践 


是 考虑 到 在 最 小 的 电路 时 延 下 仅仅 只 有 部 分 电路 需要 运行 ， 因 此 在 没有 影响 性 能 
的 情况 下 减 小 大 部 分 电路 的 电压 是 有 余地 的 。 当 然 ， 要 通过 一 系列 设备 的 设计 必 
须 可 靠 并 且 在 时 延 和 运行 温度 中 可 以 有 变化 。 

.在 Chow 等 (2005) 中 遵守 假设 原始 电路 、 改 变 内 电压 供应 然后 检查 任何 可 
能 错误 的 第 一 原则 (虽然 在 图 13-5 中 被 理所当然 地 用 做 第 二 种 方式 ) 。 作 为 在 
正常 运行 时 电压 缩放 的 结果 ， 设 计 师 能 观察 出 任何 两 种 设计 错误 ， 他 们 认为 在 这 
个 基础 上 ， 这 只 是 找 出 其 他 两 类 错误 的 一 个 例子 : 一 种 是 IO 错误 ， 那 是 在 当 低 
电压 的 核电 路 必须 连接 在 原 电 压 下 运行 的 VO 上 时 产生 的 ; 另 一 种 是 时 延 错误 ， 
那 是 关键 路 径 没有 满足 定时 要 求 时 发 生 的 。 在 VO 错误 中 ， 其 中 的 危机 是 来 自 核 
心 的 高 电 平 输出 信号 对 于 IO 缓冲 的 阔 值 电压 来 说 太 小 ， 以 至 于 不 能 够 被 正确 地 
侦 测 到 ; 这 意味 它 会 被 不 正确 地 译 为 一 个 低 值 。 

Chow 等 (2005) 中 使 用 一 个 逻辑 时 延 检 测 电路 (Logic Delay Measurement 
Circuit, LDMC) (Gonzalez 等 1997), ， 它 除了 被 应 用 于 设计 者 的 FPGA 电路 上 ， 
它 还 由 一 条 时 延 线 或 反 相 器 链 、 一 连 串 的 触发 器 和 通过 用 正规 的 FPGA 逻辑 资源 
实现 的 先行 零 检测 器 组 成 。 这 个 电路 通过 向 前 传递 穿 过 反 相 器 链 的 一 个 波形 来 有 
效 地 产生 一 个 警报 信号 ， 然 后 测量 出 通过 使 用 同样 时 钟 信 号 有 多 少 触 发 器 能 正确 
为 数据 计时 。 因 此 已 经 转变 过 的 输入 的 数量 会 依靠 反 相 器 的 时 延 ， 而 反 相 器 的 时 
延 反 过 来 会 依靠 温度 和 供电 电压 ; 通过 使 用 这 种 先行 零 检测 器 ， 能 够 计算 出 电路 
的 传输 时 延 。 用 这 种 方法 ，LDMC 就 可 以 测量 出 在 半 个 时 钟 周期 中 下 降 沿 传递 的 
时 延 数 。 对 这 个 电路 的 研究 能 使 许多 电路 受益 ， 而 且 据 作者 说 明 ， 能 量 减少 量 在 
4% ~54% 的 范围 内 ， 然 而 他 们 期 望 实现 令 人 满意 的 20% ~30% 。 这 种 方法 主要 
的 限制 就 是 由 于 FPGA 之 间 电 路 性 能 不 同 ， 因 此 必须 在 具体 环境 里 研究 每 个 FP- 
GA 的 运行 。 考 虑 到 功 耗 、 时 延 和 温度 之 间 的 关系 ， 不 能 假设 设备 之 间 的 性 能 相 
同 。 通 过 在 最 坏 情况 下 运行 的 规范 化 ， 这 在 正常 的 FPGA 运行 中 被 避免 了 。 但 
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是 ， 它 们 是 许多 的 其 他 低 功 率 设 计 技 术 ， 这 些 技术 不 要 求 改 变 FPGA 参数 ， 不 过 
这 些 参数 也 许 是 在 采用 这 样 一 个 方法 之 前 ， 设 计 者 想 要 研究 的 。 


13.5 ”开关 电容 的 减少 


之 前 的 技术 要 求 电压 被 缩小 〈 主要 的 仅仅 是 内 电压 ) ， 但 是 没有 对 这 种 缩小 
的 应 用 结果 进行 处 理 。 但 是 ， 正 如 第 13. 3 节 介绍 的 ， 另 外 一 种 减 小 功 耗 的 技术 
涉及 减少 电路 的 开关 电容 。 如 式 (13-4) 所 示 ， 这 使 得 动态 功 耗 二 次 方式 地 减 
小 (fx C, 结果 ) 。 最 后 的 FPGA 布局 能 很 大 程度 影响 开关 电容 ， 因 为 布局 决定 
的 第 一 点 就 是 路 由 互 连 的 电容 ， 而 且 因 此 在 一 定 程度 上 决定 转换 率 ， 这 都 是 由 于 
各 个 路 径 上 的 不 同时 延 (虽然 所 有 的 开关 会 通过 输入 数据 和 电路 功能 进行 管 
理 ) 。 但 是 架构 风格 会 在 很 大 程度 上 影响 FPGA 的 布局 ， 正 如 会 在 本 节 及 FFT 例 
子 中 (第 13. 10 节 ) 将 看 到 的 ， 这 意味 着 架构 的 确定 会 对 功 耗 产 生 很 大 影响 。 

一 些 技术 会 得 到 考虑 ， 在 文献 中 这 些 都 能 很 好 地 得 到 理解 。 这 些 技术 宫 括 的 
并 不 是 很 详细 ， 而 且 这 也 代表 了 仅仅 是 一 些 合适 的 最 优化 才 有 可 能 实现 。 


13.6 数据 的 重新 排序 


在 第 4 章 介 绍 的 DSP 处 理 器 的 实现 中 ,构架 主要 包括 数据 和 经 数据 总 线 连 

接 到 处 理 器 的 程序 储存 器 。 因 此 在 这 些 架构 中 ， 总 线 的 电容 会 被 固定 ， 但 是 在 一 

些 情 况 下 为 了 最 小 化 汉 明 距离 可 能 会 重 排 数据 计算 ， 从 而 在 大 的 电容 总 线 上 实现 
转换 率 的 减 小 。 看 一 看 下 面 列 出 的 有 着 4 位 参数 的 4 抽 头 滤波 器 。 

a 1011 % 1011 

a, 0110|3a, 1001! 

a, 1001! a, 0100 

t: 0100/2, 0110 


ag 1011 ag 1011 


8 次 转换 3 UR 
能 够 看 出 如 果 将 参数 加 载 到 正常 的 序号 中 ， 也 就 是 o a, a2, a; 然后 回 
到 oo ， 这 需要 转换 14 次 。 这 涉及 通过 连接 体 线性 电容 的 充 放 电 来 将 这 些 参数 加 
载 人 处 理 引擎 中 。 根 据 确定 出 的 架构 ， 这 个 互 连 长 度 还 是 相当 可 观 的 。 比 如 ， 选 
择 一 个 型 DSP 的 实现 ， 其 中 的 数据 是 经 较 长 的 总 线 从 参数 存储 器 加 载 进来 的 ， 
因此 这 能 极 大 地 促进 开关 电容 的 使 用 。 通 过 改变 加 载 的 序数 ， 转 变 的 次 数 能 够 减 
小 到 8 次 。 然 后 主要 的 问题 是 解决 参数 的 无 序 运行 。 同 时 在 一 些 电 路 架构 的 实现 
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中 这 会 是 一 个 问题 ， 在 这 些 架构 中 ， 参 数 的 
选择 是 通过 固定 的 数据 选择 器 来 完成 的 ， 这 
是 不 能 被 改变 的 ， 并 且 这 对 DSP 的 实现 而 言 
并 不 是 那么 回 事 。 这 在 参数 是 预先 确定 并 且 
不 会 改变 的 应 用 中 运作 得 很 好 。 如 果 情 况 属 
实 ， 那 么 通过 使 用 大 量 在 第 8 章 中 概述 的 技 
术 来 开发 电路 架构 ， 从 而 产生 一 个 使 用 这 项 
技术 的 架构 就 是 可 能 的 。 比 如 软件 共享 能 够 
基于 参数 的 交换 率 来 进行 控制 。 

在 Erdogan 和 Arslan (2002) 中 ,作者 
展示 了 应 该 如 何 将 设计 应 用 于 FIR Yea PLT LLL: 
来 使 得 功 耗 减少 62% 。 图 13-6 所 示 的 这 个 >» 
架构 便 是 从 中 引入 且 表 示 了 一 个 包含 乘法 器 
和 加 法 器 的 MAC 结构 ， 而 它们 需要 依靠 存 
储 器 中 的 程序 和 参数 数据 来 运行 。 通 过 将 前 
面部 分 的 输出 注入 到 电流 块 ， 能 够 将 提出 的 这 个 架构 进行 级 联 。 这 个 结构 显然 支 
持 无 序 运 行 ， 这 就 导致 经 参数 数据 总 线 传输 的 来 自 参数 存储 器 的 交换 数据 的 减 
小 。 通 过 开发 直接 型 而 不 是 转换 型 FIR 滤波 器 的 实现 ， 同 样 减少 了 当 一 个 数据 字 
被 装载 然后 重复 利用 时 在 数据 总 线 上 的 交换 。 


13.7 固定 参数 的 运算 


第 6 章 提出 的 DA 和 RCM 技术 是 一 种 最 优化 技术 ， 这 种 优化 能 被 应 用 在 除 
了 重 排序 数 的 技术 中 。 最 初 提出 这 些 技术 是 因为 它们 能 够 减 小 面积 并 且 在 某 些 情 
况 下 提升 速度 。 但 是 ， 这 两 种 方法 的 根本 观点 是 减少 需要 用 于 执行 一 个 完整 乘法 
计算 的 硬件 数量 ,而且 也 因此 隐 了 星 地 减少 了 需要 构造 乘法 器 和 相应 开关 电容 互 连 
的 数量 。 至 于 RCM， 只 有 乘法 器 结构 的 一 部 分 用 于 计算 ， 因 此 有 着 构造 额外 多 
路 复 用 的 空间 ， 通 过 它 便 能 够 关闭 一 部 分 的 乘法 器 ， 虽 然 这 还 没有 得 到 详细 的 
研究 。 


13.8 流水 线 
降低 功 耗 的 一 个 有 效 方 法 是 将 流水 线 与 具有 功 耗 意识 的 布置 元 件 相 结合 。 流 


水 线 如 图 13-7 所 示 ， 将 图 13-7a 所 示 原 电路 的 过 程 分 成 如 图 13-7b 所 示 的 几 个 
简短 的 过 程 ， 从 而 提升 速度 ， 但 是 根据 时 钟 周 期 而 非 实 际 时 间 ， 时 延 会 增加 






1 来 自 相 邻 MAC 
单元 的 数据 


图 13-6 通用 MAC 时 域 滤波 器 的 实现 
(Erdogan 和 Arslan 2002 ) 
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(因为 时 钟 周 期 已 经 变 短 了 ) 。 处 理 
速度 上 的 提升 能 以 一 种 相似 的 方式 
用 在 图 13-5 并 行 方式 的 使 用 上 ， 从 
而 减 小 电压 ， 实 现 功 率 的 降低 
(Chandrakasan 和 Brodersen 1996), 
的 确 如 之 前 章节 所 述 ， 两 种 技术 都 
能 应 用 于 提供 相当 可 观 的 速度 提升 。 

除了 提高 速度 外 ， 流 水 线 还 可 
提供 一 个 非常 有 用 的 机 制 来 降低 功 
耗 (Raghunathan 1999, Keane 等 
1999) ， 这 在 FPGA 中 更 明显 (Wil- 
ton 等 2004) 。 在 FPGA 设计 中 ， 空 
间 和 路 径 工具 的 目的 是 达到 最 好 性 hx asd los 
能 的 实现 ， 从 而 达到 所 需 速率 CR 
更 低 的 低 功 耗 实现 ) 。 流 水 线 为 设计 a) 原本 的 实现 方式 b) 流水 线 的 实现 方式 
提供 了 更 严谨 的 结构 ， 从 而 使 设计 可 达到 更 快 的 定位 并 减少 较 长 的 路 径 数量 。 此 
外 ， 流 水 线 电路 比 非 流 水 线 电路 的 故障 更 少 ， 这 是 因为 它 通常 在 寄存 器 之 间 有 更 
少 的 逻辑 层 ， 这 会 使 动态 功 耗 更 少 。 

这 种 技术 对 FPGA 特别 有 效 ， 由 于 较 长 的 路 由 路 径 和 可 编程 的 开关 ， 因 此 使 得 
耗费 一 定 的 功率 预算 就 能 提高 其 灵活 性 。 这 些 特点 提供 了 可 编程 性 ， 但 是 却 充满 了 
寄生 电容 (Chen 等 ”1997)， 如 图 13-8 所 示 ， 其 呈现 出 一 种 典型 的 FPGA 路 由 的 
一 种 模式 。 在 一 个 FPCA 中 实现 流水 线 的 另 一 个 好 处 就 是 它 也 许 能 够 使 用 未 充分 利 
用 的 资源 ， 也 就 是 在 逻辑 元 件 输出 上 的 触发 器 ， 从 而 提供 一 定 面积 的 增长 (Wilton 
4& 2004) 。 同 时 有 人 提出 触发 器 不 会 使 用 在 非 流水 线 式 的 类 型 上 ， 而 且 因 此 对 功率 
没有 影响 ， 应 该 注意 的 是 仍然 可 能 会 有 时 钟 提供 给 它 ， 这 会 使 之 主导 着 功 耗 。 








图 13-8 典型 FPGA 互联 路 由 


看 一 看 图 13-9 中 给 出 的 对 FIR 滤波 器 的 流水 线 式 的 应 用 。 这 个 滤波 器 是 一 
个 如 之 前 章节 中 介绍 的 简单 时 延 线 滤波 器 结构 。 这 将 对 两 重 流水 线 进行 研究 ， 也 
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就 是 乘法 器 之 后 的 一 层 流水 线 ， 正 如 通过 Cu 表明 的 和 表格 13-2 rp PLI 给 出 
的 ， 而 另 一 层 流水 线 则 是 插入 到 除了 第 一 层 流水 线 的 加 法 器 (和 时 延 ) f£ Cutl 
中 ， 如 表 13-2 中 PL2 给 出 的 ， 也 就 是 说 PL2 包括 了 Cutl 和 Cut2. 


Cutl 






uH —CD 中 


图 13-9 为 了 低 功 耗 流水 线 式 FIR 滤波 器 的 实现 


研究 过 许多 滤波 器 实现 ， 即 一 个 4，8，16 和 32 抽 头 的 FIR 滤波 器 在 
Vertex- II XC-2V30000bf 957-6 FPGA 得 到 了 实现 (McKeown & 2006), ix^ UE 
波 器 会 通过 使 用 地 址 总 线 、 数 据 总 线 和 使 能 信和 号 来 加 载 参数 ， 以 此 初始 化 滤波 
器 ， 这 也 是 为 了 使 之 与 所 有 的 实现 保持 一 致 。 使 用 无 截断 ， 并 且 输 出 字 长 度 对 应 
4 抽 头 和 32 抽 头 的 滤波 器 分 别 是 24 位 和 27 位 。 为 每 个 滤波 器 尺寸 定义 一 个 字 
增长 变量 ， 通 过 这 个 变量 来 进行 扩展 ， 以 此 避免 截断 。 在 应 用 降低 技术 之 前 ， 非 
流水 线 式 的 类 型 (PLO) 被 用 于 测试 功 耗 。 除 了 通过 流水 线 站 强加 的 延 时 外 ， 在 
所 有 类 型 中 的 功能 都 是 一 样 的 。 使 用 一 个 语音 数据 文件 来 模拟 时 钟 频率 为 
20MHz 和 仿真 时 间 为 200hs 的 滤波 器 设计 。 

FIR 滤波 器 是 以 VHDL 语言 编码 的 ， 将 通用 性 参数 用 作 系 数 和 输入 数据 字 的 
尺寸 。 在 Matlab® 中 创建 4，8，16 和 32 抽 头 的 滤波 器 ， 以 及 如 输入 般 提取 和 使 
用 滤波 器 参数 而 构建 了 三 种 滤波 器 ( 带 通 、 低 通 和 高 通 ) ModelSim™ 和 Syn- 
plicity@Synplify Pro@ 分 别 是 用 来 仿真 和 综合 的 。Xilinx ISE™ Project Navigator 
(6.2 版 本 ) 用 于 转换 、 绘 制 映 射 、 布 局 和 路 由 ， 而 且 ISE™ 设 计 的 一 套子 程序 已 
用 于 编译 元 件 库 、 手 动 的 布局 和 路 由 ， 以 及 产生 XPower 的 快速 布局 和 路 由 的 
VHDL 文件 。Xpower 被 用 于 产生 如 表 13-2 的 仿真 结果 ， 流 量 如 图 13-10 Pras. 
从 结果 可 得 知 对 单 站 的 流水 线 式 类 型 是 63% ~ 59% 的 能 量 减少 量 ， 并 且 对 双 站 
的 流水 线 式 类 型 是 82% ~98% ， 其 取决 于 滤波 器 尺寸 。 

表 13-2 不 同 FIR 滤波 器 的 内 部 信号 /逻辑 能 量 功 耗 
滤波 器 抽 头 尺寸 


8.4 89.7 272.0 
3.1 ( -63% ) 29.1 ( -68% ) 89.7 ( -67% ) 391.7 ( -59.3% ) 
1.5 ( -82% ) 6.7 ( -93% ) 8.1 ( -97% ) 16.4 ( -98% ) 
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ISE™ 工程 导航 器 


设计 综合 
功能 模 所 





13-10 Xpower 近似 的 详细 设计 流程 


从 表格 中 可 以 看 出 随 着 滤波 器 的 变化 ， 很 明显 流水 线 变 的 更 加 有 效率 ， 
而 且 因此 设计 的 面积 和 互 连 的 长 度 都 在 提高 ; 这 就 为 具有 功 耗 意识 的 布局 提 
供 了 更 好 的 机 会 。 通 过 紧密 布局 互相 连接 的 原件 ， 网 络 长 度 也 变 短 了 。 这 从 
两 方面 减少 了 功 耗 ， 即 通过 减 小 网 络 电容 ， 以 及 通过 减 小 不 规则 的 传输 时 
延 。 将 设计 分 成 多 个 流水 线 站 ， 通 过 减 小 传播 时 延 的 连锁 影响 来 进一步 减 小 
功 耗 。 如 图 13-11 所 示 ， 它 也 表明 了 快速 布局 及 路 由 电容 量 都 四 舍 五 人 到 最 
近 的 整数 ， 它 是 依靠 有 着 等 效 电容 网 络 上 的 开关 率 的 综合 绘制 出 来 的 。 绘 
"Wi f PLO, PLI 和 PL2 类 型 的 这 些 值 ， 而 且 也 显示 出 不 仅仅 是 在 高 电容 网 
络 中 降低 的 转换 率 , 而 且 当 功率 降低 技术 实现 时 ,设计 中 的 开关 数 会 
更 少 。 

在 Wilton 等 (2004) 中 提出 的 结果 是 更 加 彻底 的 ， 因 为 他 们 是 基于 来 自 真 
正面 板 装置 的 数据 ， 而 且 它 们 同样 让 人 印象 深刻 。 他 们 已 经 为 一 个 64 位 无 符号 
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信号 切换 /MHz 





13-11 抽 头 信号 电容 量 和 切换 


整数 数组 乘法 器 、 一 个 3 fü DES 加 密 电 路 、8 抽 头 浮 点 FIR 滤波 器 及 一 个 
CORDIC 电路 提供 了 结果 来 计算 一 个 角度 的 正 余弦 值 。 表 13-3 给 出 FIR 滤波 器 
和 CORDIC 电路 功率 结果 的 概述 。 它 们 是 从 在 Altera. Nios Development Kit 
(Stratix 专业 版 本 ) 上 实现 的 电路 中 得 出 来 的 ， 其 中 包含 了 一 个 0. 13pmCMOS 
Stratix EP1S40F780C5 设备 。 这 是 用 于 产生 出 原 FPGA 功率 的 结果 ， 而 且 估 计 功 
率 来 自 Quartus 模拟 器 和 功率 估计 器 。 

这 个 结论 显示 了 不 同 重 流水 线 应 用 的 影响 。 他 们 引用 了 所 有 40% ~ 82% 
的 储存 量 并 表明 当 从 结果 中 提炼 出 静态 能 量 时 ， 在 动态 逻辑 模块 能 量 上 的 节 
省 量 可 以 高 达 98% 。 他 们 表明 低级 物理 优化 设计 仅 能 够 让 能 量 节省 上 升 
23% ， 突 出 了 应 用 系统 级 最 优化 的 重要 性 ， 并 且 使 得 流水 线 式 的 影响 更 
显著 。 

表 13-3 对 0.13pm AY FPGA 的 流水 线 结果 


基准 电路 流水 线 站 数 原 FPGA 功率 





3834 
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(5) 
原 FPGA 功率 








流水 线 站 数 估计 功率 





计算 角度 正 余弦 的 
Cordic 电路 


13.9 区域 性 


如 第 4 章 所 论述 的 ， 脉 动 阵 列 (Kung 和 Leiserson1979 Kung 1982) 最 初 被 
当 作 用 于 解决 在 那个 时 候 固 有 的 设计 问题 的 一 个 方法 ， 这 个 问题 也 就 是 设计 的 复 
杂 性 和 在 VLSI 设计 中 较 长 的 互 连 距 离 的 问题 越发 严重 (Mead 和 Conway 1979) 。 
脉动 阵列 架构 有 大 量 的 吸引 人 的 特点 ， 包 括 数 据 和 处 理 器 的 规律 性 及 处 理 器 互 连 
的 区 域 性 。 早 期 的 结构 是 由 于 普通 的 计算 而 开发 的 ， 比 如 矩阵 乘法 和 LU 分 解 ， 
而 其 涉及 并 行 和 流水 线 过 程 的 结合 。 脉 冲 阵 列 架 构 充 分 利用 了 DSP 计算 的 高 规 
律 性 本 质 ， 并 且 有 着 巨大 的 性 能 潜力 。 

脉动 阵列 架构 的 关键 吸引 力 是 它们 提供 一 个 结构 框架 来 确认 在 FPGA E 
路 架构 发 展 上 的 规则 性 。 正 如 前 面 章节 在 流水 线 例子 所 演示 的 ， 一 个 架构 的 
最 佳 化 能 在 功 耗 减少 方面 提供 好 处 。 在 Keane 等 (1999) 中 也 清楚 地 表明 如 
何 构建 架构 ， 就 此 而 言 乘 法 器 的 比特 层 架 构 能 够 减 小 功 耗 。 这 个 比较 是 基于 
ASIC 的 ， 但 是 来 自 那 篇 文献 的 关键 信息 是 保护 区 域 性 的 重要 性 。 图 13-12 
所 示 为 进位 保留 乘法 器 和 Wallace 树 乘法 器 ( 见 图 3-7) 的 不 同 网 络 长 度 的 
转换 率 〈 见 图 3-6) 。 

图 13-12a 所 示 为 当 规律 性 在 布局 过 程 被 保留 下 来 时 ， 转 换 是 如 何 被 限 
制 在 一 些 网 络 列 表 长 度 尺 寸 上 的 。 图 13-12b 所 示 为 综合 期 间 同 样 的 设计 被 
平坦 化 时 的 影响 。 图 13-12c 所 示 为 Wallace 树 的 分 布 规律 。 应 该 注意 的 是 高 
转换 率 会 发 生 在 更 大 的 网 络 上 。 两 种 设计 都 有 相似 的 晶体 管 数量 和 模拟 运行 
的 转换 率 ， 并 且 明 显 地 表明 这 个 影响 是 因为 在 实现 Wallace 树 中 功率 提升 了 
40% 。 字 长 越 长 问题 越 糟 糕 。 对 FPGA 实现 区 域 的 应 用 在 接 下 来 的 FFT 实现 
方法 的 应 用 中 将 得 到 演示 。 
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触发 次 数 


0 500 1000 1500 2000 2500 3000 
网 络 长 度 (4) 


a) 


触发 次 数 
Š 


500 1000 1500 2000 2500 3000 
网 络 长 度 (4) 
b) 


触发 次 数 
5 


500 1000 1500 2000 2500 3000 
网 络 长 度 (4) 
c) 
图 13-12 不 同 乘法 器 结构 的 开关 电容 率 
a) 保存 有 规律 性 的 进位 的 保留 b) 基于 平面 的 网 络 列表 的 保留 进位 的 乘法 器 
c) 基于 平面 网 络 列表 的 Wallace 树 乘法 器 


13.10 FFT 实现 的 应 用 


大 量 的 这 些 观点 会 应 用 到 一 个 真正 的 DSP 例子 里 ， 假 若 这 样 就 能 被 应 用 到 
FFT 设计 实现 中 ， 则 这 能 用 许多 的 方法 实现 。 在 Meyer - Baese (2001) 里 可 以 看 
到 许多 FPGA 的 实现 信息 。 想 到 N 个 复杂 数据 点 的 DFT，x(n) 被 定义 为 
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N-1 
X, = Yx(n)Wy k=0,1, =, N-1 (13-9) 
n=0 


RP, Wy 是 旋转 因子 ，Ww =e IC” , FFT 可 以 说 是 来 自 于 它 ， 正 如 在 Bi 和 
Jones (1989) 中 提出 的 ， 其 中 涉及 DFT 表达 式 的 改写 。 到 目前 为 止 最 常见 及 广 
泛 使 用 的 是 Cooley - Tukey 算法 (Cooley 和 Tukey1965) ， 它 通过 索引 映射 的 使 用 
将 算法 复杂 性 从 0 OP) 降低 到 了 0 (Mog N)， 其 中 用 到 了 转换 参数 中 的 对 称 
ae 直到 仅仅 需要 4 DFT, 4&4 的 实现 才 递归 地 分 解 了 这 个 算法 。 这 
结果 被 结合 到 NN 点 变换 的 以 计算 中 。FFT 的 计算 使 用 蝶 形 (图 13-13a) 和 完 
hint (图 13-13b)。 算 法 的 全 局 递归 本 质 表明 自身 是 全 局 的 互 连 ， 这 需 
要 不 规则 的 路 由 ， 其 中 数据 常规 地 被 传 到 并 不 邻近 的 处 理 部 件 中 (PEs，Stone 

1989) 。 基 4 算法 的 表达 式 如 下 : 
N 


N 
A A 
4 m4 


X, = aW + Wh x(n + wy 
- A 4 


Ny : 


4 
$ wi Y x(n + N/2) WH + WAM Y x(n + E) w 


x[0] WN X[0] 

x[1] WA xU] 
2 

x[2] "v xp] 
wa 

x[3] N X[3] 





a) 


Al 13-13 FFT 结构 
a) 3&4 的 蝶 形 b) 16 点 基 4 的 FFT 


典型 的 ， 更 大 数量 点 的 FFT 创建 自 小 的 FFT 模块 ,但 是 固有 的 不 规则 性 会 
影响 速度 并 且 对 功 耗 也 有 影响 。 计 算 的 选择 性 分 解 是 可 能 的 ， 其 中 涉及 如 式 
(13-11) 所 示 的 16 点 DFT 矩阵 结构 中 重复 图 样 的 识别 。 
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13-14 所 示 为 如 何 反 映 虚 轴 的 左右 根 值 和 
实 轴 的 上 下 根 值 。 根 值 为 1，-j，-1 和 j 的 角度 
q 为 2n/(N/4)。 从 第 三 、 第 二 、 第 一 象限 分 别 分 
解 出 -)，-1 和 j， 意 味 着 剩余 唯一 根 值 的 因子 单 
独 地 位 于 第 四 象限 。 如 果 以 9 =2m/(N/4) 的 周期 
来 分 组 根 值 ， 则 能 得 到 一 个 极其 有 效率 的 转换 矩 
阵 的 因 式 分 解 。 图 13-14 根 值 为 -1， 

在 映射 了 索引 及 重 排 式 (13-11) 中 一 系列 1 和 一 的 因 式 分 角 
DFT 和 矩阵 的 输入 /输出 之 后 ， 会 被 划分 成 V4 个 纵队 的 模块 ， 可 以 提取 每 一 行 的 
公 因 子 ， 这 就 导致 每 一 个 纵队 模块 中 会 进行 同样 的 因 式 分 解 。 变 换 矩 阵 会 被 从 行 
向 量 划 分 成 4 个 (N/4) 3& (N/A) 的 矩阵 。 对 每 一 纵 列 的 进一步 因 式 变换 会 产 
生 如 式 (13-12) 中 的 变换 矩阵 。 这 实现 保持 着 像 Cooley - Tukey 算法 一 样 的 计 
算 效 率 ， 但 是 数据 的 区 域 性 增强 ， 如 图 13-15 所 示 。 

X(ko, 0) | se 4 aj (0) 





1 
Mel! |i «7 =f 7 | Wax) 
e à d E (13-12) 
Xho, 2) 1 -1 1 -I1| Wa, (2) 
X(ko, 3) bo ci at 


这 种 架构 最 初 作为 20 世纪 90 年 代 实 施 的 一 个 主要 芯片 设计 项 目的 一 部 分 来 
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开发 ， 其 涉及 女皇 大 学 的 Belfast, Snell 和 Wilecox， 以 及 以 开发 64 点 FFT (QFFT 
64) 处 理 器 为 目的 的 BBC。 工作 的 
重点 是 为 了 研究 这 种 规律 性 是 否 会 
转变 到 FPCA 的 实现 中 ， 因 此 一 个 
64 点 FFT 架构 是 用 VHDL 编码 的 ， 
而 且 与 一 个 出 自 Amphion 和 
XFFT64 的 64 点 软 IP FFT 核 的 AF- 
FT64 相 比 ， 一 个 64 点 的 FFT 核 一 
般 是 来 自 Xilinx's Coregen IP 库 的 。 
后 两 种 设计 被 高 度 参 数 化 而 且 能 

在 不 同 的 模式 下 运行 ， 但 是 两 者 在 
图 13-13a 所 示 中 都 仿佛 是 基于 一 个 
相同 的 架构 。 表 13-4 已 经 从 
Virtex -2 平台 的 结果 中 得 到 了 开 
发 ， 这 也 是 为 了 能 够 通过 使 用 实验 连接 线 及 真正 的 功率 测试 方法 来 测量 功 耗 。 随 
着 核心 在 不 同 的 速度 下 运行 ， 大 量 不 同 的 核心 也 被 用 于 每 个 配置 ， 也 就 是 在 800 
MSPS 下 的 一 个 64 点 QFFT、4 个 64 A XFFT 和 4 个 64 点 AFFT 的 核心 ， 以 及 在 
2.4 GSPS 下 的 3 个 64 点 QFFT、12 个 64 点 XFFT 和 12 个 64 点 AFFT 的 核心 。 

表 13-4 能 量 功 耗 和 对 于 800MSPS 的 资源 的 使 用 





图 13-15 64 点 FFT 架构 


































功率 资源 
n 数据 1 部 分 LUT Multl8 x 18 
QFFT64 1029 945 1950 | 2966 18 
1616 (36% ) 1496 (37% ) 4991 (61% ) 6571 (55% ) 242 (5% ) 
4044 (75% ) 3288 (71% ) 9697 (80% ) 15871 (81% ) 0 
1029 945 1950 2966 18 
1616 (36% ) 1496 (37% ) 4991 (61% ) 6571 (5596) 242 (596) 














图 13-16 所 示 为 不 同 网 络 长 度 的 转换 率 。 如 图 13-12 rz BUSTA SR BI, aR 
构 的 规律 性 已 经 导致 了 网 络 长 度 变 得 更 短 ， 正 如 通过 在 x 轴 上 的 电容 量 所 表述 
的 。 此 外 ， 这 些 网 络 的 转换 急剧 得 变 少 ， 这 代表 了 对 核心 而 言 主要 的 节约 功 耗 的 
做 法 。 

除了 常规 结构 外 ， 都 是 设计 成 流水 线 式 的 ， 它 在 所 有 的 设计 上 都 能 缩减 
网 络 长 度 。 为 了 进一步 最 小 化 互 连 ， 参 数 会 得 到 预先 的 计算 并 且 存 储 于 PE 
中 的 分 布 式 RAM。 输 入 、 输 出 和 整流 器 元 件 由 一 系列 时 延 和 整流 数据 选择 
器 组 成 。 时 延 线 作 为 移 位 寄存 器 LUT (SRL) 得 到 实现 ， 它 使 得 变化 的 时 延 
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图 13-16 64 点 QFFT、64 点 XFFT 和 64 点 AFFT 在 800 MSPS 生产 量 下 的 信号 容量 


长 度 没 有 互 连 处 罚 。 
13.11 BE 


本 章 介绍 了 FPGA 中 功 耗 的 来 源 ， 包 括 静 态 和 动态 的 功 耗 。 同 时 提出 了 一 些 
可 以 降低 静态 功 耗 的 技术 ， 大 多 数 技术 都 集中 在 动态 功率 的 降低 上 ， 因 为 这 代表 
了 对 设计 者 有 利 的 最 主要 技术 ， 这 都 归 因 于 FPGA 预制 的 本 质 。 大 量 的 技术 包括 
数据 重 排 、 固 定 系数 的 功能 性 ， 流 水 线 式 的 使 用 及 规律 的 强制 性 是 很 突出 的 。 这 
些 都 被 应 用 到 64 点 FFT 处 理 器 的 设计 上 了 。 

还 有 很 多 其 他 技术 值得 考虑 ， 比 如 存储 器 架构 的 发 展 。FPGA 的 一 个 重要 的 
优点 是 局 部 存储 的 有 效 性 。 作 为 特色 ， 这 还 没 被 开发 利用 ， 是 因为 伴随 着 多 重 存 
储 器 资源 运行 会 很 困难 。 但 是 ， 开 发 高 级 设计 方法 论 来 使 得 在 最 后 的 结果 中 构造 
局 部 存储 器 成 为 可 能 ， 这 种 做 法 有 着 很 大 的 吸引 力 ， 因 为 比 起 这 里 提 到 过 的 一 种 
最 优化 ， 它 代表 了 一 种 更 加 强 有 力 的 区 域 性 最 优化 。 此 外 ， 这 能 从 数据 流 层 中 分 
离 出 来 ， 正 如 Fischaber 等 (2007) 中 表现 出 来 的 。 作 者 的 观点 是 在 下 一 个 十 年 
里 ， 这 将 会 逐渐 成 为 一 个 研究 领域 。 
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14.1 引言 


本 书 已 经 探讨 了 许多 应 用 FPGA 创建 DSP 系统 解决 方案 所 需 的 技术 。 它 们 有 
些 被 封装 在 设计 工具 中 ， 然 后 应 用 到 大 量 设计 实例 中 。 除 了 要 在 面积 、 速 度 和 大 
吐 量 速率 方面 取得 有 效 的 FPGA 实现 外 ， 这 本 书 还 涵盖 了 低 功 耗 的 关键 技术 ， 主 
要 涉及 大 量 以 减少 动态 损耗 为 目的 的 技术 说 明 。 这 些 方法 的 关键 是 利用 FPCA Ji 
层 资源 成 功 推导 出 有 效 的 电路 结构 ， 以 匹配 最 佳 的 计算 和 通信 应 用 的 需求 量 。 通 
常情 况 下 ， 这 涉及 使 用 更 高 级 的 并 行 和 流水 线 操作 。 

如 果 基 于 FPGA 的 DSP 系统 设计 是 自动 实现 的 ， 则 需要 结合 第 9 章 描 述 的 基 
于 HDL 或 C 语言 设计 工具 (如 开头 提 到 的 Synplify DSP 工具 ) ， 或 如 第 11 章 中 
所 概述 的 更 高 级 的 设计 环境 。 如 果 这 能 成 功 ， 则 任何 高 级 方式 都 应 该 允许 设计 师 
从 高 级 描述 创造 高 效 FPGA 应 用 ， 或 者 纳入 现 有 的 IP 核 系统 中 ,但 这 很 可 能 还 
需要 多 年 的 设计 时 间 去 达到 这 种 高 级 设计 。 

本 章 的 目的 是 关注 一 些 不 得 不 被 忽略 ,或 没有 足够 详细 介绍 的 问题 。14.2 
节 的 重 构 FPCA 系统 导致 了 后 一 类 问题 ， 因 为 FPGA 的 可 编程 特质 提供 了 一 个 有 
趣 的 平台 ， 人 允许 此 类 系统 的 实现 。 这 需要 额外 的 注释 ， 以 及 14.2 节 和 14. 3 节 分 
别提 到 的 FPGA 上 的 浮 点 型 硬件 的 实现 和 内 存 架 构 的 创建 。14. 4 节 还 试图 确定 
未 来 的 发 展 趋势 ， 概 述 FPGA 开发 商 未 来 的 挑战 。 


14.2 可 重 构 系统 


传统 上 ， 可 编程 性 属于 微 处 理 器 的 领域 ， 它 执行 一 系列 指令 完成 系统 所 需 行 
为 ， 通 过 改变 指令 能 更 改 系统 功能 。 它 的 优点 是 不 需要 任何 电路 修改 ， 但 这 是 有 限 
的 ， 因 为 它 不 能 为 客户 自 定义 硬件 提供 同样 优良 的 处 理性 能 和 电源 消耗 。 问 题 出 在 
相当 一 部 分 的 电路 是 用 于 存储 和 控制 现代 微 处 理 器 电路 的 ， 这 种 开销 需要 让 计算 任 
务 大 量 重 用 微 处理 器 的 小 型 活动 部 分 ， 即 功能 单元 〈Function Unit, FU). 

从 概念 上 讲 ，FU 都 需要 评估 描述 系统 的 操作 。 然 而 ， 在 实践 中 ， 处 理 器 需 
要 在 FU 之 间 ， 以 及 内 存 和 FU 之 间 移 动 数据 。 当 高 速 、 多 端口 存储 恬 可 以 放置 
在 FU 附近 时 ， 情 况 会 变 得 更 为 复杂 。 为 了 解决 这 个 问题 ， 处 理 器 内 部 放置 有 内 
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存 分 层 。 速 度 最 快 、 消 耗 最 大 的 内 存 (寄存 器 排列 ) 形成 内 存 层次 结构 的 顶层 ， 
置 于 系统 核心 的 最 近 处 来 存储 数据 。 每 向 下 一 层 ， 内 存 能 力 增 加 ， 访 问 速度 变 
慢 。 不 同 层 之 间 的 数据 迁移 和 管理 则 是 处 理 器 所 需 的 另 一 项 重要 任务 。 

发 展 这 种 可 编程 体系 结构 的 结果 是 ， 在 一 次 运算 中 大 量 的 晶体 管 不 会 执行 有 
用 计算 。 在 硅 工 艺 日 益 成 熟 的 情况 下 ,减少 对 大 内 存 块 的 瓶颈 压力 还 有 很 大 的 需 
求 。 关 于 系统 内 存 ， 有 种 效应 称 为 内 存 墙 ， 被 Flynn A (1989) 建议 作为 指示 
内 存 访问 时 间 与 处 理 器 的 周期 时 间 的 比值 ， 它 将 随 着 技术 改进 而 增加 。 

这 倾向 于 表明 结构 解决 方案 如 何 推导 需要 大 的 变化 。 在 某 种 程度 上 ，20 世 
纪 80 年 代 在 那些 对 互 连 线 时 延 影响 的 致命 预测 中 已 经 看 到 了 这 些 ， 例 如 基于 肪 
动 并 行 计算 阵列 的 结构 (Kung 和 Leiserson 1979, Kung 1988); 一 项 重大 发 展 是 
由 英特尔 和 卡 内 基 ' 梅 隆 大 学 H T Kung 联合 开发 的 命运 多 外 的 多 重 处 理 超级 计 
算 机 iWarp。 目 标 是 根据 经 典 脉动 阵列 理论 ， 把 本 地 化 的 内 存 和 最 近 通 信和 连接 在 
单个 微 处 理 器 中 建成 一 个 并 行 计算 节点 。 虽 然 这 一 概念 很 适合 于 高 度 计算 ， 如 和 矩 
阵 和 矢量 计算 ， 但 对 于 不 规则 的 数据 计算 ， 它 工作 得 不 够 好 。 

然而 ， 可 重 置 计算 不 受 这 种 限制 的 影响 ， 它 的 主要 魅力 是 基于 计算 需要 改变 
硬件 实现 。 它 针对 复杂 系统 ， 目 的 是 使 复杂 计算 分 解 成 可 编程 硬件 。 在 本 书 的 前 几 
节 中 可 以 看 到 ， 可 重 构 置 计算 使 控制 导向 方面 更 多 地 映射 到 一 个 更 合适 的 平台 ， 即 
处 理 器 的 加 速 可 见 。 这 推断 出 连接 单个 或 FPGA 阵列 的 可 编程 处 理 器 的 使 用 。 


14.2.1 FPGA 可 编程 技术 的 相关 性 


在 早期 的 FPGA 中 ， 出 现 了 大 量 不 同 的 编程 技术 ， 特 别 是 EPROM 技术 、 熔 
丝 技术 及 SRAM 技术 。SRAM 编程 技术 带 来 了 胃 新 的 操作 模式 ， 即 功能 性 可 随 操 
作 改 变 ， 或 换 句 话说 一 一 可 重 构 。 这 既 可 以 在 正常 模式 的 下 载 时 间 内 静态 完成 ， 
也 可 以 作为 常规 操作 模式 的 一 部 分 动态 完成 。 基 本 上 , FPGA 包括 大 量 的 可 编程 
逻辑 、 寄 存 器 、 内 存 块 和 可 配置 以 不 同方 式 来 实现 各 种 功能 的 专用 处 理 模块 。 
FPGA 可 以 被 认为 是 像 一 个 智能 内 存 设 备 ， 硬 件 结构 的 “状态 ”从 处 理 器 下 载 到 
FPGA 器 件 上 。 此 FPGA 配置 被 用 来 对 传人 的 数据 作出 对 应 操作 。 通 过 重 写 FP- 
GA 器 件 的 不 同 数据 改变 操作 功能 。 因 此 ， 与 其 把 数据 存储 到 内 存 设备 写 读 ， 不 
如 将 数据 存储 到 FPGA 器 件 上 ，FPGA 对 数据 的 处 理 功能 是 可 以 通过 编程 改变 的 ， 
由 此 从 FPGA 器 件 得 到 处 理 结 果 。 

这 被 指定 包括 两 个 不 同 阶层 ， 即 执行 如 上 文 所 述 操作 并 存储 可 用 内 存 数 据 所 
需 信息 的 逻辑 层 ， 以 及 包含 所 需 编程 信息 的 SRAM 配置 层 。 因 此 ， 与 逻辑 层 交 
互 是 运作 的 正常 模式 ， 而 编程 SRAM 配置 层 定义 了 配置 模式 。 此 编程 模式 若 想 
具有 吸引 力 ， 则 意味 着 它 要 使 硬件 编程 最 好 地 满足 计算 需求 ， 在 需要 时 理想 地 达 
到 需求 。 
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这 一 概念 仍然 具有 关键 的 吸引 力 ， 因 为 它 意味 着 可 用 硬件 资源 可 匹配 大 多 数 
功能 要 求 的 有 效 实现 ， 但 这 也 带 来 了 一 些 挑战 。 包 括 在 如 DSP 环境 下 配置 硬件 
时 间 的 影响 ， 数 据 不 断 输入 ， 因 而 必须 存储 起 来 。 另 外 ， 还 有 在 处 理 时 间 上 的 影 
响 ， 如 图 14-1 所 示 ( Herson 等 2001), ， 重 置 时间 Ty 可 对 性 能 产生 影响 ， 尽 管 
FPGA 的 性 能 率 更 优 。 因 此 是 得 失 相当 平衡 的 时 间 Ts， 它 成 为 执行 重 置 的 优势 。 
随 着 设备 状态 不 断 改变 ， 系 统 的 基本 可 靠 性 不 再 是 问题 ;而 问题 在 于 确认 硬件 是 
否 配置 正确 。 
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图 14-1 重新 配置 时 间 对 8 x8 的 2D DCT 的 影响 


14.2.2 现 有 重 置 计算 


如 今 已 有 大 量 的 重 置 计算 平台 ,并 有 很 好 的 评价 ( Bondalapati 和 Prasanna 
2002, Compton 和 Hauck 2002, Todman 等 2005) 。 重 置 系统 的 分 类 由 Compton 和 
Hauck (2002) 最 初 强 调 ， 并 由 Todman 等 人 (2005) 修改 。 图 14-2 所 示 为 Tod- 
man 等 人 的 简化 版 图 解 。 此 图 显示 了 FPGA 形式 的 重 置 单 元 如 何 为 常规 的 CPU 提 
供 CPU/FPGA 配置 。 

图 14-2a 所 示 的 第 一 类 可 重 置 单元 被 视 为 外 部 处 理 单元 。 大 量 这 种 例子 都 有 
主要 FPGA 供应 商 配置 ， 也 有 Celoxica 等 公司 的 配置 。 第 二 和 第 三 类 使 用 可 重 置 
单元 作为 一 个 专用 协 处 理 器 单元 ， 或 只 连接 到 总 线 ， 或 同时 连接 CPU 和 总 线 。 
研究 例子 包括 RAPid (Ebeling 等 1996) 和 Piperench (Laufer 等 1999 ) 。 第 四 类 
包含 可 重 置 单元 或 CPU 结构 ， 或 以 结构 的 形式 更 改 单个 处 理 器 的 相互 联系 ， 或 
可 能 包括 改变 子 单元 功能 的 重 置 ,或 二 者 第 有 。 一 个 重 置 例 子 是 Elixent (2005) 
的 可 重 置 算法 处 理 (Reconfigurable Algorithm Processing, RAP) 技术 。 

随 着 第 5 章 中 所 述 FPGA 技术 的 演变 ， 这 种 比较 现在 有 点 过 时 。 现 在 的 FP- 
GA 既 可 用 软件 也 可 以 用 底层 硬件 微 处 理 器 实现 。 这 意味 着 ， 在 某 些 商业 和 高 性 
能 的 计算 解决 方案 中 ， 把 FPGA 作为 硬件 加 速 器 仍 是 可 以 的 ， 但 也 出 现 了 结合 
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c) d) 


图 14-2 可 重 置 系统 的 分 类 
a) 外 部 独立 处 理 单元 b) 附加 处 理 单元 c) 协同 处 理 器 d) 可 重 置 功能 单元 


FPGA 结构 内 核心 的 概念 。 然 而 ， 考 虑 到 通信 /计算 硬件 的 比率 ， 在 速度 和 成 本 
方面 比 性 能 带 来 影响 的 方法 ,许多 模型 处 理 的 问题 仍然 适用 。 


14.2.3 重 置 的 实现 


有 很 多 的 方法 可 以 实现 重新 编程 ， 每 种 方法 都 有 微妙 但 重要 的 差异 。 首 先 就 
在 于 如 何在 设计 中 使 用 重新 编程 ， 允 许 该 电路 纳入 一 定 程 度 的 灵活 性 。 如 果 在 任 
何 特定 时 刻 纳 入 许多 部 分 宛 余 组 件 ， 则 一 个 大 型 电路 将 很 快 变 得 非常 大 。 
Mac Bath 和 Lysaght (2001) 指出 可 重复 编程 器 件 中 有 一 个 可 重复 编程 的 核 是 不 
必要 的 开销 ， 并 提出 把 这 些 电路 分 类 作为 可 编程 多 功能 核 (Programmable Multi- 
function Cores, PMC), 。 这 也 可 以 帮助 FPGA 缩小 与 ASIC 的 表现 差距 ; 在 ASCI 
中 ， 电 路 以 一 种 提供 多 功能 性 的 方式 获得 提升 ， 允 许 将 所 有 可 能 的 情况 概括 为 一 
种 实现 ， 从 而 交换 到 灵活 性 的 区 域 和 速度 。 由 于 FPGA 结构 用 本 身 的 性 质 支持 重 
置 ， 因 此 这 些 资 源 可 以 用 于 更 改 电 路 (的 状态 ) ， 以 在 任何 时 间 运 行 最 佳 电路 。 
电路 越 有 针对 性 ， 越 可 能 修正 以 保持 优势 ， 但 在 电路 区 域 和 数据 吞吐 量 方面 还 有 
更 多 好 处 。 把 FPGA 的 结构 作为 电路 状态 变化 过 程 的 一 部 分 使 用 ， 可 以 减少 
219% 的 区 域 ， 并 增加 14% 的 速度 。 

运行 时 间 重 置 

FPGA 执行 逻辑 操作 的 能 力 有 限 ,但 可 以 用 重 置 来 绕 过 它 。 通 过 分 时 的 FP- 
GA 逻辑 ，FPCA 可 以 实现 超越 硬件 区 域 能 力 的 电路 操作 (Lysaght 和 Stockwood 
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1996) 。 在 物理 资源 并 不 限制 在 单个 设备 上 的 电路 量 ， 从 而 得 到 了 虚拟 硬件 的 概 
念 (Brebner 1999) 。 

运行 时 间 重 置 (Run - time Reconfiguration, RTR) 可 以 用 来 简化 硬件 设计 
(Brebner 1999, MacBeth 和 Lysaght 2001, Walke 等 ”2000)。 当 电路 设计 正在 使 
用 跨 多 个 任务 或 正在 减少 数据 折 县 的 大 小 时 ， 它 将 被 制约 从 而 导致 复杂 的 计时 问 
题 ， 因 此 可 能 需要 硬件 共享 。FPCA 电路 可 以 时 分 硬件 部 分 ， 这 可 以 用 来 简化 电 
路 设计 。 例 如 在 假设 系统 中 提出 的 《Walke 等 2000) ， 三 个 FIR 多 相 滤波 器 需要 
有 不 同 长 度 的 抽 头 ; 每 个 滤波 器 被 设计 十 分 有 限 的 乘法 器 ， 但 不 是 全 部 在 同一 时 
间 ; 选择 FIR 滤波 器 来 重 构 电 路 ， 去 除了 需要 把 三 个 滤波 器 结合 在 一 起 的 时 间 和 
控制 复杂 性 。 所 以 为 了 有 限 的 硬件 资源 或 多 个 标准 ， 需 要 涵盖 大 量 的 可 能 性 ， 一 
个 系统 可 以 重 置 以 选择 所 需 的 电路 部 分 。 它 的 明显 优势 在 于 ， 省 却 了 为 了 切换 不 
同 的 电路 模式 而 开发 的 复杂 控制 电路 的 需要 ， 如 ASIC 设计 的 需求 。 


14.2.4 重 置 模型 


出 现 了 大 量 的 重 置 模型 。 

1. 单一 环境 

传统 模式 的 商用 FPGA 是 单一 环境 ， 只 允许 通过 加 载 全 新 的 配置 来 改变 电 
路 。 这 种 类 型 的 模型 不 适合 RTR， 因 为 在 固件 中 进行 更 改 需要 关联 时 间 。 写 人 
数据 的 速度 被 从 源 到 FPGA 的 配置 带宽 限制 。 这 可 以 通过 设备 上 接口 的 宽度 ( 引 
脚 ) 和 速度 ， 以 及 接口 与 系统 相连 的 方式 确定 。 虽 然 重 置 数据 被 写 人 设备 中 ， 
但 当前 电路 仍 不 能 用 。 其 他 功能 已 提出 ， 并 要 克服 这 种 带宽 限制 。 

2. 部 分 重 置 

商用 FPGA 的 重 置 包括 Altera 的 Stratix® III 系列 和 Xilinx 的 VirtexTM-5 FP- 
GA 系列 。 由 于 不 分 科 独 立 更 改 ， 因 此 比 起 单一 环境 FFGA， 这 些 设备 的 RTR 范 
围 更 大 。 由 于 重 置 部 分 变 小， 制造 变化 的 花费 减少 ， 因 此 不 需要 重大 开销 就 能 频 
繁 改 动 。 这 种 器 件 的 一 个 特点 就 是 不 断 的 操作 。 当 FPGA 的 部 分 重 置 时 ， 隐 匿 了 
重 置 需要 的 时 间 。 

3. 多 元 化 环境 

对 于 多 元 化 环境 设计 的 研究 有 很 多 (DeHon 1996, Scalera 和 Vazquez 1998, 
Trimberger 等 ”1997) ， 但 迄今 为 止 ， 并 未 有 可 行 的 商用 产品 。 这 些 设 备 通过 存 
储 多 于 一 面 以 上 的 片上 重 置 数据 ， 来 解决 转移 和 重 构 数据 的 问题 。 重 置 的 过 程 就 
是 选择 其 中 一 面 来 驱动 逻辑 重 置 。 环 境 之 间 转 换 只 需 少 数 时 钟 周期 。 多 元 环境 允 
许 后 台 加 载 配 置 数 据 ， 因 为 配置 数据 可 以 加 载 到 处 于 非 活 动 状 态 的 环境 中 。 

这 种 装置 的 一 个 可 能 问题 在 于 一 个 典型 的 系统 应 用 所 需 的 环境 数量 ， 这 可 能 
是 大 于 可 用 硬件 和 环境 间 的 数据 共享 。 第 2.6.2 节 的 SCORE 结构 与 乘 数 环境 
FPGA 有 些 相似 ， 但 允许 更 改 环境 使 用 的 资源 量 。 
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4. 流水 线 重 构 

流水 线 重 构 模 型 表示 了 作为 流水 线 模块 的 设备 重 构 ， 并 可 被 看 作 是 一 个 可 调 
重 构 FPGA (Luk 等 1997) ， 它 被 视 为 流水 线 数据 通路 ， 每 个 阶段 整体 重 构 。 这 
人 允许 重 构 和 执行 的 累加 。 所 需 的 重 构 被 分 为 按 顺 序 加 载 的 重 构 阶段 。 在 每 个 阶段 
编 好 程 后 ， 立 即 开始 运作 ， 因 此 一 个 阶段 的 配置 正 是 数据 流 的 前 一 步 。 一 旦 设备 
空间 不 足 ， 它 就 开始 交换 内 存在 FPGA 上 储存 时 间 最 长 的 程序 ， 在 下 个 阶段 取代 
它们 。 这 允许 超过 设备 物理 资源 的 应 用 降低 吞吐 量 继续 运行 。Piperench (Laufer 
等 1999) 是 这 种 类 型 模型 的 一 个 例子 。 在 这 种 情况 下 ， 作 者 指出 向 前 兼容 性 
的 优势 ， 附 加 设备 可 以 只 是 增加 阶段 数 ， 来 保留 相同 的 阶段 。 

5. 配置 缓存 

图 14-3 所 示 为 FPGA 数组 和 一 个 重 置 数据 存储 设备 的 FPGA 抽象 模型 。 由 
于 不 能 提供 所 需 的 带宽 ， 因 此 配置 数据 的 运动 会 导致 电路 处 理 的 长 时 间 中 断 。 在 
这 种 情况 下 ， 可 以 使 用 图 14-3 所 示 的 预 取 和 缓存 ， 减 少 “ 突 发 性 ”的 数据 移动 
(Hauck 等 1999) 。 接 近 FPGA 数组 的 缓存 数据 ， 如 片上 ， 可 以 通过 罕 带 预 取 缓 
存 ， 来 使 用 一 个 高 带宽 通道 。 然 而 ， 当 获取 不 正确 的 数据 时 ， 预 取 会 出 现 条 件 分 
支 的 问题 。 
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图 14-3 ”用 于 绕 过 可 重 置 数 据 传输 的 带宽 限制 的 预 取 和 缓存 


6. 配置 压缩 

配置 压缩 减少 了 要 移动 的 数据 量 ， 因 此 通过 使 用 数据 压缩 削减 重 置 时 间 。 图 
14-4 所 示 为 该 模型 的 抽象 视图 。 预 取 时 ， 解 压 硬 件 与 FPGA 数组 中 的 连接 远大 
于 它 与 数据 存储 的 连接 。 这 个 概念 最 初 是 为 Xilinx XC6200 FPGA 技术 开发 的 ， 
它 具 有 通配符 功能 ， 同 时 允许 地 址 和 数据 的 值 写 入 多 个 位 置 。 开 发 这 个 设备 专门 
用 来 支持 动态 重 置 ， 并 认识 到 有 必要 在 同一 时 间 改 变 设备 的 部 件 ， 这 就 是 通配符 
功能 。Hauck 等 人 (1999) 指出 可 以 以 一 种 方法 压缩 数据 流 ， 使 XC6200 的 通 配 
符 硬件 解压 数据 流 。Hauck 等 人 (1999)，Li 和 Hauck (2001) 继续 考虑 可 以 用 
于 其 他 FPGA 的 低 开 销 压 缩 方法 。 
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图 14-4 用 于 绕 过 重新 配置 数据 传输 的 带宽 限制 的 压缩 


14.3 内存 体系 结构 


当 考虑 实现 DSP 系统 时 ，FPGA 的 主要 吸引 力 在 于 对 并 行 和 流水 线 操作 的 支 

持 。 然 而 ， 受 到 重视 的 一 个 因素 是 一 系列 不 同 尺 寸 的 并 行 存储 器 的 可 行 性 ， 无论 
这 是 分 布 式 内 存 模 块 的 形式 、 简 单 的 LUT 或 单个 触发 器 。Flynn 等 人 (1989) 强 
调 ， 由 于 内 存 到 处 理 器 的 周期 时 间 比率 增加 ， 因 此 内 存 墙 使 得 存 取 固态 计算 机 架 
构 的 未 来 不 容 乐 观 。 同 时 采取 了 一 些 技 术 手 段 ， 通 过 使 用 一 个 分 布 式 内 存 结构 开 
发 一 种 高 度 并 行 的 解决 方案 ， 用 FPGA 解决 这 个 问题 。 这 可 以 通过 特定 分 布 式 存 
储 结构 推导 ， 或 作为 一 种 算法 优化 的 结果 ， 例 如 在 创造 分 布 式 内 存 影响 下 的 流水 
线 应 用 。 由 于 数据 独立 运作 和 常规 的 高 计算 率 ， 因 此 这 种 方法 特别 适合 DSP, M 
而 使 并 行 结 构 不 受 复杂 控制 。 
”这 就 表明 ，FPCA 提供 了 一 个 有 用 的 平台 ， 用 于 开发 以 内 存 ， 而 不 是 以 计算 
为 导向 的 新 型 计算 机 架构 。 文 本 已 清楚 表明 不 同 的 电路 架构 是 如 何 发 展 为 不 同 
DSP 算法 的 。 结 构 性 派生 通常 是 被 创造 必要 的 计算 资源 以 满足 系统 的 详细 规格 参 
数 所 驱动 。 有 充分 的 理由 表明 以 内 存 为 导向 的 架构 的 开发 需要 更 详细 的 研究 ， 其 
基本 规则 被 开发 用 于 创造 一 些 DSP 算法 的 内 存 需 求 〈( Kapasi 等 ”2002)。 这 在 内 
存 提 升 到 满足 算法 级 需求 的 想象 处 理 器 中 有 某 种 程度 上 的 预见 。 第 6，8，9 章 的 
细节 FPGA 示例 中 ， 或 是 因为 缺乏 触发 器 资源 ， 或 是 与 相关 资源 的 选择 有 关 ， 不 
同 的 内 存 ， 即 SRL 形式 的 LUT， 被 优先 选择 用 于 触发 器 来 提供 更 多 有 效应 用 延 
迟 链 。 然 而 ， 这 往往 是 一 个 好 的 设计 决定 ， 而 不 是 有 意识 提升 内 存 为 导向 的 体系 
结构 的 需求 。Fischaber 等 人 (2007) 的 建议 可 从 数据 流水 平 进行 内 存 的 设计 
工作 。 
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14.4 对 浮 点 计算 的 支持 


在 早期 FPGA 中 一 个 有 意识 的 决定 是 首先 引入 了 可 扩展 加 法 器 结构 ， 之 后 的 
版 本 是 引入 专用 乘法 器 复杂 性 ， 例 如 Altera 的 Stratix@II 系列 和 Xilinx 的 Vir- 
tex™ -5 FPGA 系列 ， 这 些 已 经 真正 地 影响 到 了 DSP 系统 的 FPGA 的 使 用 。 因 为 
所 需 的 计算 率 极 高 ， 所 以 分 布 式 内 存 的 可 行 性 推动 使 了 用 FPGA 进行 超级 计算 的 
溢出 。Cray，SGI 和 Nallatech 等 供应 商 一 系列 广泛 的 解决 方案 在 大 量 硬件 平台 上 
的 可 行 性 ， 会 在 高 级 计算 上 有 很 好 的 表现 。 然 而 Craven 和 Athanas (2007) 的 工 
作 表 明 ， 即 使 用 本 书 中 强调 的 很 多 方法 ， 高 级 计算 应 用 可 达到 的 性 能 仍 被 限制 。 

一 个 关键 的 原因 是 FPGA 中 缺乏 适当 的 浮 点 支持 ， 即 使 是 Craven 和 Athanas 
(2007) 也 避免 在 工作 中 使 用 浮 点 算术 而 使 用 固 点 硬件 。 表 14-1 重 述 了 第 3 章 的 
数字 ， 突 出 了 在 FPCA 中 使 用 浮 点 算术 的 问题 。 如 果 字 长 效应 小 于 18 位 ， 则 执 
行 一 个 固 点 将 只 需 一 个 DSP48 ， 不 需要 很 多 表 中 所 述 的 大 量 触发 器 。 执 行 数 据 选 
择 、 舍 入 和 正常 化 必定 需要 额外 的 硬件 来 执行 ， 如 图 3-10 所 示 。 如 果 FPGA 被 
广泛 应 用 于 超级 计算 机 ， 则 对 功能 的 支持 需要 在 今后 的 FPGA 版 本 中 对 流水 线 有 
更 好 的 高 级 编程 支持 。 

表 14-1 使 用 Xilinx Virtex-4 FPGA 技术 实现 不 同 浮 点 操作 的 分 区 和 速度 数据 
速率 (MHz) 








14.5 FPGA 未 来 的 挑战 


当今 的 商业 FPGA 产品 令 人 印象 非常 深刻 。 最 近 的 设备 代表 了 推动 使 用 硅 技 
术 ， 并 更 多 地 用 于 内 存 ， 作 为 复杂 设备 来 测试 未 来 硅 技 术 的 高 度 复杂 平台 。 然 
而 ， 会 有 一 些 特别 影响 到 FPGA 的 挑战 。 

技术 扩展 提供 了 许多 优点 ， 但 它 也 突出 了 一 个 特别 环 手 的 问题 ， 那 就 是 互 连 
晶体 管 的 延迟 比率 。 表 14-2 中 显示 一 些 例 子 ， 以 及 各 种 技术 晶体 管 的 延迟 比率 
(Davis 4$ 2001 ) 。 在 这 个 表 中 ， 最 小 扩展 表示 如 果 不 考 虑 任何 措施 产生 的 结 
果 ， 则 反 向 扩展 指 育肥 电线 的 影响 ， 从 而 扭转 扩展 过 程 。 反 向 比例 将 被 用 来 抵消 
互 连 增加 的 阻力 影响 ， 见 表 14-2。 此 时 间 问 题 会 导致 布线 密度 急剧 下 降 ， 从 而 
降低 集成 水 平 ， 从 区 域 的 角度 导致 总 线 驱动 结构 更 加 低 效 。 由 于 FPGA 高 度 依赖 
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可 编程 路 由 ， 因 此 这 两 种 方法 都 有 问题 。 一 个 是 最 小 比例 ， 将 大 大 减 慢 系统 ; 而 
反比 例 ， 将 有 一 个 主要 区 域 影响 。 看 来 这 种 效应 的 影响 将 增加 FPCA 上 更 大 的 异 
质 块 的 使 用 。 

表 14-2 互 连 延 迟 对 技术 测量 的 影响 














Imm 互 连 的 内 部 延迟 
技术 MOSFET 转换 延迟 
最 小 测量 值 最 大 测量 值 
1l. Oum (Al, SiO, ) 20 5 5 
1.0m (Al, SiO, ) 5 30 5 
35um (Cu, low k) 2:5 3 





逐步 扩展 带动 了 半导体 行业 ， 人 允许 供应 商 提供 更 快 、 更 便宜 ， 且 功能 不 断 增 
加 的 电路 。 互 连 延 迟 影响 的 增加 ， 带 来 一 个 更 严重 的 问题 ， 即 过 程 变化 的 影响 。 
到 2018 年 40nm 的 技术 将 转 为 子 10nm (半导体 行业 协会 2005 ) ， 现 在 设备 特性 
变异 是 提供 下 一 代 SoC 系统 ， 包 括 FPGA 的 一 个 重大 挑战 。 其 他 问题 可 能 采取 最 
坏 的 案例 ， 然 后 使 用 其 他 办 法 来 克服 局 限 性 ， 但 过 程 变 异 问 题 产生 的 原因 ， 需 在 
下 一 代 扩 展 中 进行 调查 。 
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